Entry

Deep Reinforcement Learning from Human Preferences

Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei

Synopsis

Seminal RLHF paper introducing learning from pairwise human preferences over agent trajectories. Achieves Atari/locomotion task learning with feedback on under 1% of agent interactions, establishing the canonical training-from-use loop.

Keywords

·RLHF ·preference learning ·reward modeling ·deep RL

Open paper ↗ arXiv ↗ Report issue ↗

Related entries

Learning to summarize from human feedback

September 2, 2020 · NeurIPS 2020
How RLHF Amplifies Sycophancy

February 1, 2026 · arXiv
Strategyproof Reinforcement Learning from Human Feedback

March 12, 2025 · NeurIPS 2025
Language Models Learn to Mislead Humans via RLHF

September 19, 2024 · ICLR 2025
Towards Understanding Sycophancy in Language Models

October 20, 2023 · ICLR 2024
Training Language Models to Follow Instructions with Human Feedback

March 4, 2022 · NeurIPS 2022