Oct, 2023
通过奖励函数优化进行行为对齐
Behavior Alignment via Reward Function Optimization
Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno Castro da Silva
TL;DR通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。