从上下文语言推断奖励

ACLApr, 2022

Inferring Rewards from Language in Context

Jessy Lin, Daniel Fried, Dan Klein, Anca Dragan

TL;DR本文提出了一种基于语言认知的模型，不仅能够从语言中推断出用户的奖励函数，以便在新环境中实现期望的操作，而且能够更准确地推断奖励并预测新环境下的最佳操作，相比于以往的指令跟随和逆向强化学习方法。

Abstract

In classic instruction following, language like "I'd like the JetBlue flight" maps to actions (e.g., selecting that flight). However, language also conveys information about a user's underlying →

language reward function model natural language processing interactive task

发现论文，激发创造

如何与人工智能对话：指令，描述和自主性

研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Jun, 2022

语言沟通作为 (反向) 奖励设计

本文提出了奖励设计的推广原则作为语言交流的基础，包括概括未知未来状态的线性赌博设置、演讲者模型和实用主义听众对演讲者潜在视角和奖励的联合推断。

Apr, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

实用特征偏好：从人类输入中学习与奖励相关的偏好

通过研究人类社会学习观点，将社会背景纳入考虑，并提出了一种从用户特征层次偏好中学习更精确奖励模型的方法，结果表明这种方法能够更高效地与用户对齐并获得准确的奖励。

May, 2024

从行动和指令推断沟通代理的目标

研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用，发现使用语言指令可以更快、更准确地推断出团队目标，强调了语言沟通对于协作任务的重要性。

Jun, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020