Apr, 2021

使用规范先验训练价值对齐强化学习智能体

TL;DR通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本的世界中对其进行了测试。