通过观察人类跟随行为实现基于场景指导生成的连续学习

ACLAug, 2021

通过观察人类跟随行为实现基于场景指导生成的连续学习

Continual Learning for Grounded Instruction Generation by Observing Human Following Behavior

Noriyuki Kojima, Alane Suhr, Yoav Artzi

TL;DR研究自然语言指令生成的连续学习，在观察人类用户执行指令的基础上，并比较用户执行结果和系统原始意图的差异，以此作为信号改善系统的指令生成能力。通过与真实用户的交互，系统在语言生成能力方面表现出巨大的进步。

Abstract

We study continual learning for natural language instruction generation, by observing human users' instruction execution. We focus on a collaborative scenario, where the system both acts and delegates tasks to hu

continual learning natural language instruction generation collaborative system contextual bandit learning user interaction

发现论文，激发创造

基于实时反馈的指令跟随持续学习

通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Dec, 2022

执行定位协作交互中的指令

我们研究了一种协作场景，其中用户不仅指示系统完成任务，而且与系统一起行动。我们通过建立一个游戏环境来研究这个场景，并学习将用户的指令映射到系统的动作，以实现误差恢复和多目标指令的显式推理。我们通过新的评估协议和人类用户的交互和在线游戏进行评估，并观察用户如何适应系统的能力。

Oct, 2019

人类用户如何在不断的交互中教授连续学习机器人？

本文研究了人类教授机器人学习的方式及学习机器人需要如何快速学习新信息，在理解每个用户的教学风格方面个性化改进。对 200 个会话进行研究，结果表明教学者的风格存在显著变异，需要进行个性化的适应。同时，在实际运用中，常规设备测试机器学习无法代替真实用户的操作方法。

Jun, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

为基于理解语境的语言模型收集交互式多模态数据集

本文介绍了利用自然语言任务进行协作的实体代理模型，发展出了可扩展的数据收集工具，并采集了互动立足语言理解的第一个数据集，以便进一步研究机器模拟人类智能适应新任务与环境的能力。

Nov, 2022

通过交互式基于语境的语言指导重新定义具有代表性的代理人能力，改变以人为中心的 AI 协作

本文介绍了一种交互式的 “体现代理” 系统，它具有适应性，能够有效地处理自然语言指令，并提供反馈。同时，还介绍了一种用于收集有关该系统的大量文本指令的众包工具，以及该系统具有学习能力的数据集和基线模型。

May, 2023

GLIDE-RL: 基于强化学习的通过演示进行语言指导

通过多个教师 - 学生代理的课程学习框架，GLIDE-RL 提出了一种训练自然语言指令遵循的强化学习代理的新算法，通过利用强化学习、课程学习、连续学习和语言模型的进展，能够适应以前未见过的语言指令并验证了其有效性。

Jan, 2024

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

通过互相反馈与代理互动，提高基于场景的语言理解能力

探索交互式人工智能与人类协作的方向，研究在基于 Minecraft 世界的交互式语言理解任务中，人类可以提供哪些类型的辅助帮助，以提高 AI 行为的性能和表现。

Apr, 2023

逆因果循环一致性学习在视觉语言导航中的应用

本篇研究提出了一种基于视觉 - 语言导航（VLN）的学习方法，同时学习指令生成和指令跟随任务并通过相互的协作来提高训练，包括添加一个能够生成反事实环境来提高训练效果的代理程序。在标准测试集上的实验证明，该方法提高了各种跟随模型的性能并能够生成准确的导航指令。

Mar, 2022