构建通用的语言、视觉和视觉语言理解任务的基础模型
本文提出了使用语言模型作为各种基础模型的通用接口,弥合语言和其他模态的差异性,同时继承了语境训练和生成以及双向编码器的优点,实现了上下文学习、指导跟随等多种能力。实验验证表明,在各种语言和视觉语言基准测试中,我们的模型在微调、零 - shot 通用性和少 - shot 学习方面表现优异。
Jun, 2022
基于基础模型和可视化的研究交叉领域,探索可视化在理解、优化和评估复杂模型中所发挥的关键作用,提供了进一步探索该有前途领域的起点,同时也指出了相关挑战与机遇。
Oct, 2023
预训练基础模型的出现带来了计算机视觉领域的新篇章,其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时,我们整理和讨论了促进视觉基础模型开发的广泛资源,并解决了未来研究所面临的挑战。融合生成模型和判别模型是未来创新的重要方向,而将生成模型应用于判别上的初步尝试表明了这种融合的早期阶段。本综述旨在成为学者和从业者的现代汇编,勾勒视觉基础模型的发展轨迹,阐明其多方面的领域。
Dec, 2023
本文综述了多模基础模型的分类和演变,重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题:(i) 针对特定目的预训练的多模基础模型,包括学习视觉骨干进行视觉理解和文本到图像生成的方法;(ii) 旨在充当通用助手的多模基础模型的最新进展,包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士,他们渴望了解多模基础模型的基础知识和最新进展。
Sep, 2023
此研究简化了近 200 种视频基础模型,对 14 个不同的视频任务进行了综合概述,并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现,图像为基础的模型在大多数视频理解任务上持续表现优异,而利用多种模式的通用基础模型在视频任务上表现卓越。
May, 2024
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
图基础模型(GFM)是图领域中一个新兴的研究课题,旨在发展一种能够概括不同图和任务的图模型。我们提出了一个新颖的视角 ——“图词汇表”,通过在图中编码基本可转移单元的不变性来建立图词汇表,从而解决在构建 GFM 中遇到的跨结构模式图之间正向传递的关键挑战,这一视角可以潜在地推进未来 GFM 设计遵循神经规模定律。
Feb, 2024