Nov, 2018

通过奖励建模实现可扩展的智能体协调方向研究

TL;DR本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向,并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。