TrafficVLM: 可控的交通视频字幕视觉语言模型

Apr, 2024

TrafficVLM: 可控的交通视频字幕视觉语言模型

TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

Quang Minh Dinh, Minh Khoi Ho, Anh Quan Dang, Hung Phong Tran

TL;DRTrafficVLM 是一种新颖的多模态密集视频字幕模型，用于车辆自我摄像机视角中对交通视频事件进行不同层次的空间和时间分析，生成精细描述，提出了一种条件组件和多任务微调范式来增强 TrafficVLM 的学习能力，将其应用于 AI City Challenge 2024 的 Track 2 获得了杰出的成绩，排名第三。

Abstract

traffic video description and analysis have received much attention recently due to the growing demand for efficient and reliable urban surveillance systems. Most existing methods only focus on locating traffic e

traffic video description analysis multi-modal dense video captioning model vehicle ego camera view ai city challenge

发现论文，激发创造

CityLLaVA: 城市场景下 VLMs 的高效微调

城市场景交通安全描述与分析在保险检查和事故预防等应用中起着关键作用。本文介绍了 CityLLaVA，一种专门用于城市场景的视觉语言模型的新的微调框架，通过采用边界框进行最佳视觉数据预处理，包括视频最佳视角选择和在训练和测试阶段进行视觉提示工程；构建简明的问答序列和设计文本提示以提高指令理解；通过块扩展高效微调大型视觉语言模型，并通过一种独特的顺序提问预测增强方法提高预测准确性。在实验中，我们的方法达到了 33.4308 的基准分数，在排行榜上占据了领先位置。

May, 2024

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

GPT-4V 作为交通助手：对复杂交通事件的视觉语言模型的深入研究

通过使用 GPT-4V 对代表性交通事件视频进行实验，我们发现 GPT-4V 在某些经典交通事件中展现出了出色的认知、推理和决策能力，同时也发现了它在更复杂场景中的理解存在一定限制，这些限制值得进一步探索和解决。

Feb, 2024

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

基于预训练大型语言模型的交通预测框架：TPLLM

TPLLM 是一种基于大型语言模型的交通预测框架，通过构建基于 CNN 的序列嵌入层和基于 GCN 的图嵌入层，提取序列特征和空间特征，并与 LLMs 集成，实现在有限历史交通数据地区的准确预测和良好的泛化能力。

Mar, 2024

自动驾驶和智能交通系统中的视觉语言模型

该研究论文综述了视觉语言模型在自动驾驶和智能交通系统领域的应用，包括当前模型和数据集，并探讨了潜在的应用和新兴的研究方向，同时详细讨论了挑战和研究空白。该论文旨在向研究人员提供有关 VLM 在自动驾驶和智能交通系统中的最新工作和未来趋势。

Oct, 2023

CarLLaVA: 基于视觉和语言模型的无需传感器驱动闭环驾驶

CarLLaVA 是一种用于自主驾驶的视觉语言模型，通过 LLaMA 架构和 LLaVA VLM 的视觉编码器实现闭环驾驶性能的最新进展，无需复杂或昂贵的标签，并通过行驶输出展示了预测语言评论的初步结果。

Jun, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022