Lana: 一款具备语言能力的导航器,用于指令遵循与生成
UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架,利用大型语言模型(GPT3)和图像标题模型(BLIP)的新颖组合,将传统的指令跟随代理推广到多语言和低资源语言等复杂领域,将不同语言之间的对齐通过跨模态变压器,对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。
May, 2023
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
Oct, 2022
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文提出了两种有效方法来改善视觉和语言导航 (VLN) 挑战中的指令表示和动作解码问题,一是使用大规模预训练语言模型来学习更好的文本表示,二是提出一种随机采样方案来减小训练和测试中动作的差距,从而使智能体可以在长序列的动作解码过程中学习自我纠正,将两项技术结合,成功地在 Room-to-Room 基准测试中取得了新的最优性能,以路径长度加权的成功率指标提高了 6% 绝对值 (47%—>53%)。
Sep, 2019
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022