GPT-4 增强型自动驾驶多模态基础：借助大型语言模型的跨模态注意力

Dec, 2023

GPT-4 增强型自动驾驶多模态基础：借助大型语言模型的跨模态注意力

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models

Haicheng Liao, Huanming Shen, Zhenning Li, Chengyue Wang, Guofa Li...

TL;DR在自动驾驶车辆领域中，准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架，用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Grounding (CAVG) 模型是一个先进的系统，将文本、图像、上下文和跨模态的五个核心编码器集成到一个多模态解码器中。该模型通过实施多头跨模态注意力机制和区域特定动态 (RSD) 层，能够高效处理和解释一系列跨模态输入，从而全面理解口头指令和相应的视觉场景之间的相关性。在真实世界基准数据集 Talk2Car 上的实证评估表明，CAVG 在预测准确性和操作效率方面树立了新的标准。值得注意的是，即使在完整数据集的 50% 到 75% 的有限训练数据的情况下，该模型表现出色。这一特点凸显了它在实际自动驾驶应用中的效果和潜力。此外，CAVG 在挑战性场景中展现出了卓越的强健性和适应性，包括长文本命令解释、低光条件、模糊的命令上下文、恶劣天气条件和人口密集的城市环境。该模型的代码可在我们的 Github 上找到。

Abstract

In the field of autonomous vehicles (AVs), accurately discerning commander intent and executing linguistic commands within a visual context presents a significant challenge. This paper introduces a sophisticated encoder-decoder framework, developed to address →

autonomous vehicles visual grounding encoder-decoder framework multimodal decoder contextual semantics

发现论文，激发创造

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

DriveGPT4: 大型语言模型实现可解释的端到端自动驾驶

DriveGPT4 是一种可解释的端到端自动驾驶系统，利用大型语言模型，能够理解车辆行为、提供相应推理、回答用户的问题以增强交互，同时也能以端到端的方式预测车辆的低层控制信号，并且在多个任务中展现出优越的性能和通用性。

Oct, 2023

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

GPT-4V 探索：挖掘自动驾驶

本论文探讨了将 GPT-4V 视觉语言模型应用于矿山环境中的自动驾驶，它能够理解意图并在紧急情况下做出准确决策。通过视觉问答和复杂场景理解，GPT-4V 解决了这些特殊环境下的挑战，如识别和解释行人、各种车辆和交通设备等元素。尽管 GPT-4V 在准确识别特定车型和管理动态交互方面存在困难，但其有效的导航和策略决策展示了其在矿山环境复杂条件下作为可靠自动驾驶代理的潜力，凸显了其在工业环境中的适应性和可操作性。

Jun, 2024

基于区域特定动态层注意力融合的自主车辆指令落地

该研究旨在探讨如何通过语言理解来实现自动驾驶汽车与人之间的交互，通过对多模态信息的自适应融合，提高语义理解准确度，改进对自然语言命令的视觉场景定位能力。实验结果表明，该模型优于目前现有的技术水平。

Mar, 2022

HiVG: 视觉引导的分层多模态细粒度调控

通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。

Apr, 2024

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力

GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.

Nov, 2023

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020