用于视觉与语言导航的说话者 - 跟随者模型

NIPSJun, 2018

用于视觉与语言导航的说话者 - 跟随者模型

Speaker-Follower Models for Vision-and-Language Navigation

Daniel Fried, Ronghang Hu, Volkan Cirik, Anna Rohrbach, Jacob Andreas...

TL;DR本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Abstract

navigation guided by natural language instructions presents a challenging reasoning problem for instruction followers. natural language instructi

navigation natural language instructions machine learning pragmatic reasoning panoramic action space

发现论文，激发创造

逆因果循环一致性学习在视觉语言导航中的应用

本篇研究提出了一种基于视觉 - 语言导航（VLN）的学习方法，同时学习指令生成和指令跟随任务并通过相互的协作来提高训练，包括添加一个能够生成反事实环境来提高训练效果的代理程序。在标准测试集上的实验证明，该方法提高了各种跟随模型的性能并能够生成准确的导航指令。

Mar, 2022

在未知环境中跟随自然语言指令的学习模型

本文提出了一个新的学习框架，使得机器人可以成功地遵循自然语言路线指令，而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布，并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理，使用模仿学习的新型置信空间规划器直接求解策略，我们在可声控轮椅上评估了我们的框架。结果表明，通过学习和推理潜在的环境模型，该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。

Mar, 2015

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用 360 度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单 Transformer 模型，本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

使用神经听者和说者推理语用学

我们提出了一个基于先验推理和学习语义结合的思想来描述场景的模型，成功率高于现有技术。

Apr, 2016

可访问的指令跟随代理

UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架，利用大型语言模型（GPT3）和图像标题模型（BLIP）的新颖组合，将传统的指令跟随代理推广到多语言和低资源语言等复杂领域，将不同语言之间的对齐通过跨模态变压器，对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。

May, 2023

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023

具备语言预训练和随机采样的稳健导航

本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题，一是使用大规模预训练语言模型来学习更好的文本表示，二是提出一种随机采样方案来减小训练和测试中动作的差距，从而使智能体可以在长序列的动作解码过程中学习自我纠正，将两项技术结合，成功地在 Room-to-Room 基准测试中取得了新的最优性能，以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。

Sep, 2019

生成和跟随指令的统一语用模型

使用显式的实用推断对于复杂的序列任务生成和遵循自然语言指令是有帮助的，研究表明实用推断可以提高在不同环境下生成和理解自然语言指令的效果。

Nov, 2017

通过句法信息改善视觉语言导航中的跨模态对齐

本文提出了一种新的导航代理程序，利用依赖树派生的句法信息增强指令和当前视觉场景之间的对齐，显著提高了在 Room-to-Room 数据集上的性能，同时在 Room-Across-Room 数据集上取得了新的最高性能水平。

Apr, 2021