如何与人工智能对话：指令，描述和自主性

Jun, 2022

如何与人工智能对话：指令，描述和自主性

How to talk so AI will learn: Instructions, descriptions, and autonomy

Theodore R Sumers, Robert D Hawkins, Mark K Ho, Thomas L Griffiths, Dylan Hadfield-Menell

TL;DR研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Abstract

From the earliest years of our lives, humans use language to express our beliefs and desires. Being able to talk to artificial agents about our preferences would thus fulfill a central goal of value alignment. Yet today, we lack computational models explaining such →

language use contextual bandit computational models reinforcement learning social learning

发现论文，激发创造

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

语言沟通作为 (反向) 奖励设计

本文提出了奖励设计的推广原则作为语言交流的基础，包括概括未知未来状态的线性赌博设置、演讲者模型和实用主义听众对演讲者潜在视角和奖励的联合推断。

Apr, 2022

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

从上下文语言推断奖励

本文提出了一种基于语言认知的模型，不仅能够从语言中推断出用户的奖励函数，以便在新环境中实现期望的操作，而且能够更准确地推断奖励并预测新环境下的最佳操作，相比于以往的指令跟随和逆向强化学习方法。

Apr, 2022

从语言反馈中学习奖励

本研究采用自然语言反馈作为人工智能代理的学习信号，使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数，来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习，并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。

Sep, 2020

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

PREDILECT: 在强化学习中利用零样本语言推理揭示偏好

基于偏好的强化学习已成为机器人学习中的一个新领域，其中人类通过表达对不同状态 - 动作序列的偏好，对机器人行为起到关键作用。为了应对机器人实际政策制定的要求，我们通过扩展每个查询收集的信息，包括偏好和可选的文本提示，解决了样本效率挑战。为了处理额外的查询信息，我们重新制定了奖励学习目标，包含灵活的重点内容 —— 那些包含相对高信息量并与预训练语言模型从文本中零 - shot 处理的特征相关的状态 - 动作对。通过模拟场景和用户研究，我们分析了反馈及其影响，揭示了我们工作的有效性。此外，收集到的集体反馈有助于在模拟的社交导航环境中对机器人进行社会合规轨迹训练。我们提供了训练策略的视频示例，网址为 https:// 此处替换为视频链接

Feb, 2024

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020