BriefGPT.xyz
Jun, 2017
深度强化学习从人类偏好中学习
Deep reinforcement learning from human preferences
HTML
PDF
Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg...
TL;DR
本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的训练,同时也采用了前人的人类反馈信息和环境。
Abstract
For sophisticated
reinforcement learning
(RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert)
→