利用神经机器翻译实现反强化学习导航指令生成

Oct, 2016

利用神经机器翻译实现反强化学习导航指令生成

Navigational Instruction Generation as Inverse Reinforcement Learning with Neural Machine Translation

Andrea F. Daniele, Mohit Bansal, Matthew R. Walter

TL;DR该研究提出了一种导航指南模型，使机器人能够生成自然语言指令，帮助人们在事先未知的环境中进行导航，该模型使用人类演示数据通过反向强化学习训练决策策略，并通过神经序列到序列模型从自然语料库中生成自由形式的语句，实验测评表明，在与人类参考指令进行比较时，该方法获得了 72.18% 的 BLEU 分数，并且缩小了人类与机器人交互时的差距。

Abstract

Modern robotics applications that involve human-robot interaction require robots to be able to communicate with humans seamlessly and effectively. Natural language provides a flexible and efficient medium through which robots can exchange information with their human partners. Signific

human-robot interaction natural language generation robotic navigation inverse reinforcement learning neural sequence-to-sequence model

发现论文，激发创造

将自然语言导航指令翻译为行为机器人导航的高级计划

利用深度学习模型，结合自然语言处理和机器人导航，使用关注模型以及环境的拓扑表示，将自由形式的自然语言指令翻译成行为机器人高级计划，能够显著优化传统方法的表现，并且探讨了环境地图作为知识库来促进自由形式导航指令翻译的可能性。

Sep, 2018

在未知环境中跟随自然语言指令的学习模型

本文提出了一个新的学习框架，使得机器人可以成功地遵循自然语言路线指令，而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布，并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理，使用模仿学习的新型置信空间规划器直接求解策略，我们在可声控轮椅上评估了我们的框架。结果表明，通过学习和推理潜在的环境模型，该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。

Mar, 2015

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

使用多头注意力机制为行为机器人导航翻译自然语言指令

本文提出了一个多头注意力机制，作为神经网络模型的混合层，用于将自然语言转化为高水平的行为语言，以便室内机器人导航。作者遵循了 Zang 等人（2018a）提出的框架，提出使用导航图作为任务的知识库。实验结果表明，在以前未见过的环境中翻译指令时，可以获得显著的性能提升，从而提高模型的泛化能力。

Jun, 2020

FollowNet：深度强化学习下基于自然语言指令的机器人导航

通过不同的神经网络架构，自然语言指令、视觉和深度输入被映射为机器行动的原语，RL 算法在稀疏奖励下学习状态表示、注意力函数和控制策略。在模拟家庭环境下的自然语言导航中，模型展示出了 30% 的改进和 52% 的成功率。

May, 2018

使用自然语言命令重塑机器人轨迹：多模态数据对齐的变压器研究

本文提出了一种基于自然语言的灵活性极高的人机协作接口，将大型语言模型 (BERT 和 CLIP) 的优势与轨迹信息相结合，通过多模态注意力变换实现对用户命令的编码，并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习，并将轨迹生成过程视为序列预测问题，通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异，并证明了自然语言接口在人机协作中的优越性。

Mar, 2022

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017