自动驾驶的视觉基础模型铸造：挑战、方法和机遇

Jan, 2024

自动驾驶的视觉基础模型铸造：挑战、方法和机遇

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Xu Yan, Haiming Zhang, Yingjie Cai, Jingming Guo, Weichao Qiu...

TL;DR自动驾驶中用于构建视觉基础模型（VFMs）的关键技术包括数据准备、预训练策略和下游任务适应等方面，同时介绍了 NeRF、扩散模型、3D 高斯喷洒和世界模型等关键进展，并提出了未来研究的全面路线图。

Abstract

The rise of large foundation models, trained on extensive datasets, is revolutionizing the field of AI. Models such as SAM, DALL-E2, and GPT-4 showcase their adaptability by extracting intricate patterns and performing effectively across diverse tasks, thereby serving as potent building blocks for a wide range of AI applications. →

autonomous driving vision foundation models data preparation pre-training strategies downstream task adaptation

发现论文，激发创造

基础模型在推进自动驾驶车辆方面的前景角色

基于人工智能的大规模基础模型在自主驾驶中具有着巨大的应用潜力，能够提升场景理解和推理能力，增强语言和行动命令的认知推理，并改善自主驾驶系统的准确性和可靠性。同时，通过自我监督学习范式下的大规模数据，世界模型可以生成看似真实的未见过的驾驶环境，促进对道路使用者行为的预测和驾驶策略的离线训练，从而提高自主驾驶的安全性和处理长尾分布问题的能力。

Dec, 2023

自动驾驶中的基础模型调查

该研究综述介绍了基础模型在自动驾驶中的应用，探讨了其在规划、仿真、三维物体检测以及多模态模型方面的作用，并提供了基于模态和功能对基础模型的分类，同时指出了现有模型与创新自动驾驶方法之间的差距，并提出了填补这些差距的未来研究方向和路线图。

Feb, 2024

基础模型与可视化的结合：挑战与机遇

基于基础模型和可视化的研究交叉领域，探索可视化在理解、优化和评估复杂模型中所发挥的关键作用，提供了进一步探索该有前途领域的起点，同时也指出了相关挑战与机遇。

Oct, 2023

大规模基础模型在自动驾驶中的应用

通过将大语言模型（LLMs）与基础模型结合，利用人类知识、常识和推理，重新构建现有的自动驾驶系统，以改变当前的长尾人工智能困境。

Nov, 2023

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

基础模型在地理空间人工智能中的机遇与挑战

通过在多个地理空间子领域进行测试，发现在某些文本模态的地理任务中，基于任务不可知的大型语言模型可以在零样本或少样本学习设置中胜过基于任务特定的全监督模型，但是在其他涉及多种数据模态的地理任务上，现有的基础模型仍然不如基于任务特定的模型表现。因此，通过处理不同的地理数据模态，建议可能性使用能够通过地理对齐来推理各种类型的地理数据的多模态基础模型来应对地理人工智能挑战的多模态特征。

Apr, 2023

无限驾驶：具有多模态基础模型的通用端到端自动驾驶

通过使用多模态基础模型，我们提出了一种方法来增强自主驾驶系统的鲁棒性和适应性，实现了开放环境中的端到端多模态自主驾驶，并能从图像和文本的表示中提供驾驶决策。

Oct, 2023

深入多模态多任务基础模型探索道路场景理解：从学习范式视角

基于多模态多任务视觉理解基础模型（MM-VUFMs）的研究综述，旨在提供道路场景下 MM-VUFMs 的综合概述，包括任务特定模型、统一多模态模型、统一多任务模型和基础模型推进技术，并突出其在不同学习范式中的高级能力。

Feb, 2024

基础模型的机遇与风险

AI 基础模型的兴起，具有广泛数据训练和可适应下游任务的特点，其机制、应用和社会影响需要更多的跨学科合作来研究。

Aug, 2021