ICLRFeb, 2023

使用语言模型进行奖励设计

TL;DR本文探讨以自然语言接口为代理奖励函数来简化奖励设计,在强化学习框架下利用大型语言模型对用户目标进行培训,实现智能体与用户目标的对齐,并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。