学习在未见过的环境中导航：使用环境 dropout 进行回译

ACLApr, 2019

学习在未见过的环境中导航：使用环境 dropout 进行回译

Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout

Hao Tan, Licheng Yu, Mohit Bansal

TL;DR本文提出了一个可适应新场景的机器人导航算法，通过混合模仿学习和强化学习的训练方法，以及利用 “环境丢失” 技术生成新的路径和指令进行微调。实验证明所提出的算法在没有见过的测试环境中具有更好的泛化性能。

Abstract

A grand goal in AI is to build a robot that can accurately navigate based on natural language instructions, which requires the agent to perceive the scene, understand and ground language, and act in the real-world environment. One key challenge here is to learn to navigate in new envir

robot navigation natural language instructions agent training unseen environments generalizability

发现论文，激发创造

学习在复杂环境中导航

利用增强学习问题和多模态感应输入的辅助深度预测和循环闭环分类任务，可以学习从复杂 3D 迷宫中进行导航并接近人类级别表现

Nov, 2016

自然语言基础下跨环境多任务学习导航

本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型，同时还探索了一种用于导航策略的环境无关表示法，并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。

Mar, 2020

无地图城市导航学习

该论文提出一种基于深度强化学习的城市级别自主导航模型，采用 Google StreetView 进行环境交互和训练，具备可迁移性和区域特征一致性，实现了在多个城市环境下自主导航到目标位置。

Mar, 2018

预期视觉语言导航中未知差异

本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法，该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS 利用了相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应，并基于强化学习与 Momentum Contrast 组合的混合模式来加强基本的模仿学习。在 R2R 和 RxR 数据集上的广泛实验表明，DAVIS 在视觉语言导航中取得了模型无关的最新进展。

Sep, 2022

将自然语言导航指令翻译为行为机器人导航的高级计划

利用深度学习模型，结合自然语言处理和机器人导航，使用关注模型以及环境的拓扑表示，将自由形式的自然语言指令翻译成行为机器人高级计划，能够显著优化传统方法的表现，并且探讨了环境地图作为知识库来促进自由形式导航指令翻译的可能性。

Sep, 2018

学习环顾四周：智能探索未知任务的未见环境

通过奖励代理的减少未观测环境部分的不确定性的行为，我们提出了一种基于循环神经网络的强化学习方法来实现对自然场景和三维物体的主动完成，并演示了我们的方法学习到的通用策略对于新的未见环境和任务具有较好的泛化性。

Sep, 2017

在逼真环境中学习视觉导航，无需任何监督

提出了一种无需外部监督或奖励的新方法，通过三个阶段，学习从图像输入进行导航：学习视角的良好表示，然后使用内存进行探索，最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训，因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。

Apr, 2020

基于互动回放的机器人导航单次强化学习

通过基于单次环境遍历构建交互世界模型、预训练视觉特征编码器和随机环境增强的方法，提出了一种在移动机器人上学习导航到固定目标并在已知环境中进行零样本迁移的方法。该方法成功应用于真实环境变化下的导航问题，避免了过拟合问题。

Nov, 2017

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

视觉与语言导航中的数据生成扩展

通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了 80％，并将在已见和未见环境中导航的泛化差距降低到不到 1％。

Jul, 2023