Jun, 2017

深度强化学习从人类偏好中学习

TL;DR本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的训练,同时也采用了前人的人类反馈信息和环境。