PASTS: 基于进展感知的时空变换演说家，用于视觉语言导航

May, 2023

PASTS: 基于进展感知的时空变换演说家，用于视觉语言导航

PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation

Liuyi Wang, Chengju Liu, Zongtao He, Shu Li, Qingqing Yan...

TL;DR通过使用进度感知的时空转换演讲者模型（PASTS），该研究使用 transformer 作为网络的核心，提出了一种改进视觉和语言导航（VLN）性能的技术，该模型具有灵活性，可与现有的 VLN 模型结合使用，实验结果显示，PASTS 优于所有现有的演讲者模型，并成功提高了前期 VLN 模型的性能，在标准 R2R 数据集上实现了最先进的性能。

Abstract

vision-and-language navigation (VLN) is a crucial but challenging cross-modal navigation task. One powerful technique to enhance the generalization performance in VLN is the use of an independent speaker model to

vision-and-language navigation speaker model transformer data augmentation performance improvement

发现论文，激发创造

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

面向视觉和语言导航的历史感知多模态 Transformer

通过引入一种历史感知的多模式转换器来将长期历史包含在多模式决策中，以在视觉和语言导航中构建自主的视觉代理，进而通过使用强化学习进一步优化导航策略。

Oct, 2021

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

一种用于导航的循环视觉语言 BERT 模型

本文提出了一种基于递归 BERT 模型的视觉与语言导航方法，该方法能够达到最先进的结果，并同时支持导航和指代表达任务的并行处理。

Nov, 2020

具高效的分层变换器的生成式预训练语音语言模型

我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST)，它将音频波形量化为两种不同类型的离散语音表示，并在层次变压器架构中进行集成，从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练，GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示，GPST 可以产生自然连贯的个性化语音，展示了上下文学习能力。此外，我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明，GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。

Jun, 2024

低层次视觉语言导航的多模态注意力网络

本文提出了一种基于全注意力机制的低层 VLN 架构，用于实现跨多个模态的长期路径规划，其中包括自然语言、图像和代理人的低级行为控制，实验结果表明其在两个数据集上均获得了良好的性能。

Nov, 2019

使用 Transformer 的拓扑规划实现视觉语言导航

本文介绍了一种基于模块化方法的视觉和语言导航技术，使用拓扑地图和注意机制来生成导航计划，并通过低级动作执行控制器实现。实验证明，该方法在自由遍历环境下优于以往的端到端方法。

Dec, 2020

用于视觉与语言导航的说话者 - 跟随者模型

本研究提出了一种使用内置语音模型的视觉 - 语言导航方法，该方法利用演讲者模型来合成新的指令进行数据增强，并实现了实用推理和全景动作空间，大大提高了基线指令跟随者的性能，在标准基准测试中成功率超过现有最佳方法的两倍。

Jun, 2018

面向目标的结构化 Transformer 规划器用于视觉语言导航

本文提出了一种基于目标驱动的结构化 Transformer 规划器（TD-STP）用于长期目标导向和房间布局感知的视觉语言导航任务，该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构，并在 R2R 和 REVERIE 基准测试数据集上的测试结果上比现有最优方法的成功率分别提高了 2％和 5％

Jul, 2022

SOAT: 一种面向场景和对象感知的视觉语言导航变换器

本论文提出了一个基于 transformer 的视觉与语言导航（VLN）代理，使用两种不同的视觉编码器，即场景分类网络和对象检测器，它们能匹配这两种不同类型的视觉提示，进而通过视觉和语言的预训练实现通向 Room-to-Room（R2R）和 Room-Across-Room（RxR）存在显著改进的效果。

Oct, 2021