BriefGPT.xyz
Nov, 2018
通过奖励建模实现可扩展的智能体协调方向研究
Scalable agent alignment via reward modeling: a research direction
HTML
PDF
Jan Leike, David Krueger, Tom Everitt, Miljan Martic, Vishal Maini...
TL;DR
本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向,并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。
Abstract
One obstacle to applying
reinforcement learning
algorithms to real-world problems is the lack of suitable
reward functions
. Designing such
reward
→