构建通用的语言、视觉和视觉语言理解任务的基础模型

Jan, 2023

构建通用的语言、视觉和视觉语言理解任务的基础模型

Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks

PDF

Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li

TL;DR本文介绍了一种新的通用的基础模型 X-FM，它能够处理语言、视觉和视觉与语言的理解任务，并且在多个基准数据集上表现出比现有的通用模型更好的性能。

Abstract

foundation models or pre-trained models have substantially improved the performance of various language, →

foundation models pre-trained models language vision x-fm

发现论文，激发创造

语言模型是通用接口

本文提出了使用语言模型作为各种基础模型的通用接口，弥合语言和其他模态的差异性，同时继承了语境训练和生成以及双向编码器的优点，实现了上下文学习、指导跟随等多种能力。实验验证表明，在各种语言和视觉语言基准测试中，我们的模型在微调、零 - shot 通用性和少 - shot 学习方面表现优异。

Jun, 2022

基础模型与可视化的结合：挑战与机遇

基于基础模型和可视化的研究交叉领域，探索可视化在理解、优化和评估复杂模型中所发挥的关键作用，提供了进一步探索该有前途领域的起点，同时也指出了相关挑战与机遇。

Oct, 2023

生成和判别视觉基础模型的统一化探索

预训练基础模型的出现带来了计算机视觉领域的新篇章，其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时，我们整理和讨论了促进视觉基础模型开发的广泛资源，并解决了未来研究所面临的挑战。融合生成模型和判别模型是未来创新的重要方向，而将生成模型应用于判别上的初步尝试表明了这种融合的早期阶段。本综述旨在成为学者和从业者的现代汇编，勾勒视觉基础模型的发展轨迹，阐明其多方面的领域。

Dec, 2023

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

多模态基础模型：从专家到通用助手

本文综述了多模基础模型的分类和演变，重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题：(i) 针对特定目的预训练的多模基础模型，包括学习视觉骨干进行视觉理解和文本到图像生成的方法；(ii) 旨在充当通用助手的多模基础模型的最新进展，包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士，他们渴望了解多模基础模型的基础知识和最新进展。

Sep, 2023

VisionFM：一种面向综合眼科人工智能的多模态多任务视觉基础模型

VisionFM 是一个用 340 万张眼科图像预训练的基础模型，具有眼科疾病诊断、人工智能和合成数据等功能。

Oct, 2023

视频理解基础模型综述

此研究简化了近 200 种视频基础模型，对 14 个不同的视频任务进行了综合概述，并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现，图像为基础的模型在大多数视频理解任务上持续表现优异，而利用多种模式的通用基础模型在视频任务上表现卓越。

May, 2024

基础模型向导：通过知识和推理指引基础模型

基于对代理与基础模型互动模式的分类和对该模式的扩展架构提出的综述性论文，为实现基础模型在实际人工智能系统中的潜力提供了指导。

Feb, 2024

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

图基础模型

图基础模型（GFM）是图领域中一个新兴的研究课题，旨在发展一种能够概括不同图和任务的图模型。我们提出了一个新颖的视角 ——“图词汇表”，通过在图中编码基本可转移单元的不变性来建立图词汇表，从而解决在构建 GFM 中遇到的跨结构模式图之间正向传递的关键挑战，这一视角可以潜在地推进未来 GFM 设计遵循神经规模定律。

Feb, 2024