利用多模态大语言模型推动交通目标检测的进展：综合评审与实证测试

Sep, 2024

利用多模态大语言模型推动交通目标检测的进展：综合评审与实证测试

Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing

HTML

PDF

Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy

TL;DR本研究旨在全面评审并实证评估多模态大语言模型（MLLMs）在交通系统目标检测中的应用。研究指出MLLM在不同交通场景目标检测中的有效性与局限性，并通过实证分析测试其在实际交通问题中的表现，揭示其优缺点，为未来研究提供了方向和路线图。

Abstract

This study aims to comprehensively review and empirically evaluate the application of multimodal large language models (MLLMs) and Large Vision Models (VLMs) in Object Detection for →

发现论文，激发创造

HiLM-D: 面向自动驾驶的多模态大型语言模型的高分辨率理解

自动驾驶系统中使用分离的模型进行不同任务，我们提出HiLM-D方法，通过整合多模态大型语言模型（MLLMs）来联合多个自动驾驶任务，特别是解决了低分辨率信息影响多模态大型语言模型在ROLISP任务中的效果问题，实验结果显示HiLM-D在ROLISP任务中取得了显著的提升。

Sep, 2023

自动驾驶和智能交通系统中的视觉语言模型

该研究论文综述了视觉语言模型在自动驾驶和智能交通系统领域的应用，包括当前模型和数据集，并探讨了潜在的应用和新兴的研究方向，同时详细讨论了挑战和研究空白。该论文旨在向研究人员提供有关VLM在自动驾驶和智能交通系统中的最新工作和未来趋势。

Oct, 2023

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型，在规范化的平均得分上取得了最高12.99%的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

近期大型视觉-语言模型的有效性评估

大视觉语言模型在专业任务和通用任务中的效能进行综合评估，发现它们在专业任务和通用任务中均表现有限，可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。

Mar, 2024

探究多模态LLMs作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像/帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器DriveSim生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种MLLMs作为驾驶世界模型的能力，并为评估驾驶中的MLLMs贡献了全面的开源代码和一个新数据集“Eval-LLM-Drive”。我们的研究结果突出了当前领先的MLLMs在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

视觉语言基础模型中的运动预测中的难例检测

该研究探讨了使用Vision-Language Foundation Models（VLMs）在自动驾驶中检测困难案例的潜力，并展示了VLMs在交通参与者运动预测中检测困难案例的能力。通过VLMs检测困难案例，进一步提高了现有运动预测流程的训练效率。

May, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

利用多模态大型语言模型在热像中检测对象：交通应用

研究表明，多模态大型语言模型（Multimodal Large Language Models，MLLMs）与热像数据的集成对提高自动驾驶系统和智能交通系统（ITS）应用的安全性和功能性构成了一个令人兴奋的机遇。该研究探讨了MLLM是否能够理解来自RGB和热像相机的复杂图像，并直接检测物体。结果表明，GPT-4和Gemini在热像中检测和分类物体方面都非常有效，并且可以应用于ITS应用的先进成像自动化技术。

Jun, 2024

交通工程问题的视觉语言模型评估与比较

本研究针对视觉语言模型在交通工程任务中的应用，探讨了现有模型在图像分类和目标检测中的表现，特别是拥堵检测和裂缝识别。通过采用零-shot 提示方法评估多种开源和闭源模型，发现尽管这些模型在图像分类任务中表现与传统卷积神经网络相当，但在目标定位上仍需改进，为未来研究提供了基准和改进方向。

Sep, 2024