ICMLMay, 2024

通过自对准使用大型语言模型学习机器人技能的奖励

TL;DR在没有人类干预的情况下,我们提出了一种通过使用大型语言模型(LLM)来学习奖励的方法,该方法通过迭代的自我对齐过程,最小化 LLM 和学习奖励函数之间的排名不一致性,从而在训练效果和效率方面实现了一致的改善,并且相比于基于突变的方法消耗了更少的 GPT 令牌。