分解任务：基于单元级别的混合训练框架用于视觉和语言决策

Jul, 2023

分解任务：基于单元级别的混合训练框架用于视觉和语言决策

Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making

Ruipu Luo, Jiwen Zhang, Zhongyu Wei

TL;DR本研究提出了一种基于 Unit-Transformer 的混合训练框架，将 Vision language decision making 任务分解为可管理的单元，并通过活跃的环境探索和内部循环状态来改进模型，最终取得优于现有方法的成果。

Abstract

vision language decision making (VLDM) is a challenging multimodal task. The agent have to understand complex human instructions and complete compositional tasks involving environment navigation and →

vision language decision making environment navigation object manipulation unit-transformer hybrid-training framework

发现论文，激发创造

多模态变长记忆转换器用于视觉语言导航

此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器（MTVM）方法，用于模拟时间上下文，通过在存储器库中直接存储先前激活来跟踪导航轨迹，并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估，该模型在验证集和测试集的成功率分别提高了 2％且将 CVDN 测试集的目标处理减少了 1.6m。

Nov, 2021

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

GameVLM：基于视觉语言模型和零和博弈的机器人任务规划决策框架

该研究介绍了一个多智能体框架 (GameVLM)，使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程，通过引入零和博弈理论来解决不同智能体之间的一致性问题，并得出最优解，实验证明该框架具有 83.3% 的平均成功率。

May, 2024

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

通过强化学习将大型视觉语言模型细调为决策代理

使用强化学习对视觉语言模型进行微调，提出了一种算法框架来增强其决策能力，验证了连续思维推理的重要性，并展示了在各种任务中超越商业模型的性能。

May, 2024

面向视觉和语言导航的历史感知多模态 Transformer

通过引入一种历史感知的多模式转换器来将长期历史包含在多模式决策中，以在视觉和语言导航中构建自主的视觉代理，进而通过使用强化学习进一步优化导航策略。

Oct, 2021

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018