May, 2023

语言奖励塑形的脆弱性提醒:可能会阻碍指导式智能体的学习

TL;DR本文讨论了语言奖励塑形(LRS)在强化学习(RL)中的应用,通过松弛任务约束的奖励扰动技术,降低了奖励有偏性的问题;同时提供了理论和经验证据,表明使用 LRS 奖励训练的代理相比纯 RL 代理收敛更慢。