自动驾驶的视觉基础模型铸造:挑战、方法和机遇
基于人工智能的大规模基础模型在自主驾驶中具有着巨大的应用潜力,能够提升场景理解和推理能力,增强语言和行动命令的认知推理,并改善自主驾驶系统的准确性和可靠性。同时,通过自我监督学习范式下的大规模数据,世界模型可以生成看似真实的未见过的驾驶环境,促进对道路使用者行为的预测和驾驶策略的离线训练,从而提高自主驾驶的安全性和处理长尾分布问题的能力。
Dec, 2023
该研究综述介绍了基础模型在自动驾驶中的应用,探讨了其在规划、仿真、三维物体检测以及多模态模型方面的作用,并提供了基于模态和功能对基础模型的分类,同时指出了现有模型与创新自动驾驶方法之间的差距,并提出了填补这些差距的未来研究方向和路线图。
Feb, 2024
基于基础模型和可视化的研究交叉领域,探索可视化在理解、优化和评估复杂模型中所发挥的关键作用,提供了进一步探索该有前途领域的起点,同时也指出了相关挑战与机遇。
Oct, 2023
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023
该研究论文评估了最新的先进视觉语言模型(VLM)在自动驾驶场景中的应用,发现该模型在场景理解和因果推理方面表现出优越性能,但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。
Nov, 2023
通过在多个地理空间子领域进行测试,发现在某些文本模态的地理任务中,基于任务不可知的大型语言模型可以在零样本或少样本学习设置中胜过基于任务特定的全监督模型,但是在其他涉及多种数据模态的地理任务上,现有的基础模型仍然不如基于任务特定的模型表现。因此,通过处理不同的地理数据模态,建议可能性使用能够通过地理对齐来推理各种类型的地理数据的多模态基础模型来应对地理人工智能挑战的多模态特征。
Apr, 2023
通过使用多模态基础模型,我们提出了一种方法来增强自主驾驶系统的鲁棒性和适应性,实现了开放环境中的端到端多模态自主驾驶,并能从图像和文本的表示中提供驾驶决策。
Oct, 2023
基于多模态多任务视觉理解基础模型(MM-VUFMs)的研究综述,旨在提供道路场景下 MM-VUFMs 的综合概述,包括任务特定模型、统一多模态模型、统一多任务模型和基础模型推进技术,并突出其在不同学习范式中的高级能力。
Feb, 2024