ACLApr, 2022

从上下文语言推断奖励

TL;DR本文提出了一种基于语言认知的模型,不仅能够从语言中推断出用户的奖励函数,以便在新环境中实现期望的操作,而且能够更准确地推断奖励并预测新环境下的最佳操作,相比于以往的指令跟随和逆向强化学习方法。