视觉语言基础模型中的运动预测中的难例检测

May, 2024

视觉语言基础模型中的运动预测中的难例检测

Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson

TL;DR该研究探讨了使用 Vision-Language Foundation Models（VLMs）在自动驾驶中检测困难案例的潜力，并展示了 VLMs 在交通参与者运动预测中检测困难案例的能力。通过 VLMs 检测困难案例，进一步提高了现有运动预测流程的训练效率。

Abstract

Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect

autonomous driving hard cases vision-language foundation models traffic participant motion prediction data selection

发现论文，激发创造

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

GPT-4V 作为交通助手：对复杂交通事件的视觉语言模型的深入研究

通过使用 GPT-4V 对代表性交通事件视频进行实验，我们发现 GPT-4V 在某些经典交通事件中展现出了出色的认知、推理和决策能力，同时也发现了它在更复杂场景中的理解存在一定限制，这些限制值得进一步探索和解决。

Feb, 2024

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

利用 Yolo-World 目标检测模型和专门的提示，本文探讨了大型语言模型（LLMs）在零样本异常检测中的潜力，实现了识别摄像头捕获帧中的异常并生成简洁的音频描述，从而在复杂环境中协助安全的视觉导航。此外，本文还探讨了不同提示组件的性能贡献，并为视觉辅助性的未来改进提供了展望，并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。

Mar, 2024

自动化评估大型视觉语言模型对自动驾驶的极端情况

提出了 CODA-LM，这是一个用于自动驾驶的新兴视觉 - 语言基准测试，通过利用文本而不使用图像输入，使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力，并揭示了它们与人类偏好的更强的一致性。实验证明，即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况，这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走，希望 CODA-LM 能够成为推动未来发展的催化剂。

Apr, 2024

VG4D：视觉语言模型进入 4D 视频识别

通过 Vision-Language Models Goes 4D (VG4D) 框架，我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中，实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器，并通过实验证明了我们方法在动作识别方面达到了最先进的性能。

Apr, 2024

GPT-4V 掌控方向：对行人行为预测的承诺和挑战评估

GPT-4V 在自动驾驶中利用公开可用的数据集 JAAD、PIE 和 WiDEVIEW 进行行人行为预测的评估，定量和定性评估证明了 GPT-4V 在零 - shot 行人行为预测和自动驾驶中的驾驶场景理解能力，但仍不及传统领域特定模型的最新成果，存在小行人和运动车辆处理困难等限制，需要进一步研究和发展。

Nov, 2023

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024