面向人工智能协同的语言指导强化学习

Apr, 2023

面向人工智能协同的语言指导强化学习

Language Instructed Reinforcement Learning for Human-AI Coordination

Hengyuan Hu, Dorsa Sadigh

TL;DR在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Abstract

One of the fundamental quests of AI is to produce agents that coordinate well with humans. This problem is challenging, especially in domains that lack high quality human behavioral data, because multi-agent reinforcement learning (RL) often converges to different equilibria from the o

ai coordination multi-agent reinforcement learning natural language instructions human-ai interaction hanabi benchmark

发现论文，激发创造

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

现实世界复杂环境中的人工智能协作与强化学习

在复杂的模拟环境中，研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况，并开发出了一种用户界面，使人类有效地协助人工智能代理。

Dec, 2023

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

基于预备性基于语言约定的高效人工智能协作

使用大型语言模型开发协同规约，能够有效引导人类和人工智能之间的协调；通过将问题分解、多个新会话和人类反馈等策略应用于规约制定问题，可以获得更高效的协调规约；在与真实人类协同时，该方法与人类偏好更加一致，性能平均提高了 15%。

Nov, 2023

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

回顾智慧让语言模型成为更好的指令跟随者

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

利用强化学习代理为人在环境中提供遵守建议的验证

本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Oct, 2022

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

利用神经机器翻译实现反强化学习导航指令生成

该研究提出了一种导航指南模型，使机器人能够生成自然语言指令，帮助人们在事先未知的环境中进行导航，该模型使用人类演示数据通过反向强化学习训练决策策略，并通过神经序列到序列模型从自然语料库中生成自由形式的语句，实验测评表明，在与人类参考指令进行比较时，该方法获得了 72.18% 的 BLEU 分数，并且缩小了人类与机器人交互时的差距。

Oct, 2016