May, 2023
语言奖励塑形的脆弱性提醒:可能会阻碍指导式智能体的学习
A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents
Sukai Huang, Nir Lipovetzky, Trevor Cohn
TL;DR本文讨论了语言奖励塑形(LRS)在强化学习(RL)中的应用,通过松弛任务约束的奖励扰动技术,降低了奖励有偏性的问题;同时提供了理论和经验证据,表明使用 LRS 奖励训练的代理相比纯 RL 代理收敛更慢。