定义视觉新时代的基础模型：调查与展望

Jul, 2023

定义视觉新时代的基础模型：调查与展望

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Muhammad Awais, Muzammal Naseer, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal...

TL;DR视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Abstract

vision systems to see and reason about the compositional nature of visual scenes are fundamental to understanding our world. The complex relations between objects and their locations, ambiguities, and variations in the real-world environment can be better described in human language, n

vision systems foundational models contextual reasoning training objectives computer vision

发现论文，激发创造

医学影像学中的基础模型：综合调查与未来视野

通过提供医学成像领域基础模型的综合概述，本调查旨在帮助研究人员了解基础模型的基本概念、培训策略、计算要求以及在医学图像分析方面的机会、应用和未来发展方向。

Oct, 2023

决策基础模型：问题、方法与机遇

本文检查了基于决策制定的基础模型的范围，并提供了理解问题空间和探索新研究方向的概念工具和技术背景。通过各种方法，例如提示、条件生成建模、规划、最优控制和强化学习，审查了将基础模型用于实际决策制定应用的最近方法，并讨论了该领域的常见挑战和开放问题。

Mar, 2023

自动驾驶中的基础模型调查

该研究综述介绍了基础模型在自动驾驶中的应用，探讨了其在规划、仿真、三维物体检测以及多模态模型方面的作用，并提供了基于模态和功能对基础模型的分类，同时指出了现有模型与创新自动驾驶方法之间的差距，并提出了填补这些差距的未来研究方向和路线图。

Feb, 2024

多模态基础模型：从专家到通用助手

本文综述了多模基础模型的分类和演变，重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题：(i) 针对特定目的预训练的多模基础模型，包括学习视觉骨干进行视觉理解和文本到图像生成的方法；(ii) 旨在充当通用助手的多模基础模型的最新进展，包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士，他们渴望了解多模基础模型的基础知识和最新进展。

Sep, 2023

基础模型简介：历史、社会和技术焦点

本文介绍了基础模型，深度学习中通过模型大小和训练数据广度和大小的扩展可以对未来的 AI 开发造成破坏。基础模型在各种任务领域（如自然语言处理和计算机视觉）中实现了最先进的性能，并且通过进一步的改进常常得到更好的表现。此外，模型的单一化可能会将众多特定任务的模型替换为由少数公司控制的更少数量的大型模型，从而导致对 AI 的权力和控制的转移，并出现新兴的行为方式：上下文学习。

Dec, 2022

基础模型与可视化的结合：挑战与机遇

基于基础模型和可视化的研究交叉领域，探索可视化在理解、优化和评估复杂模型中所发挥的关键作用，提供了进一步探索该有前途领域的起点，同时也指出了相关挑战与机遇。

Oct, 2023

生成和判别视觉基础模型的统一化探索

预训练基础模型的出现带来了计算机视觉领域的新篇章，其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时，我们整理和讨论了促进视觉基础模型开发的广泛资源，并解决了未来研究所面临的挑战。融合生成模型和判别模型是未来创新的重要方向，而将生成模型应用于判别上的初步尝试表明了这种融合的早期阶段。本综述旨在成为学者和从业者的现代汇编，勾勒视觉基础模型的发展轨迹，阐明其多方面的领域。

Dec, 2023

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

基础模型的机遇与风险

AI 基础模型的兴起，具有广泛数据训练和可适应下游任务的特点，其机制、应用和社会影响需要更多的跨学科合作来研究。

Aug, 2021

构建通用的语言、视觉和视觉语言理解任务的基础模型

本文介绍了一种新的通用的基础模型 X-FM，它能够处理语言、视觉和视觉与语言的理解任务，并且在多个基准数据集上表现出比现有的通用模型更好的性能。

Jan, 2023