Oct, 2023

通过奖励函数优化进行行为对齐

TL;DR通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。