探索全模态大规模预训练的极限

Jun, 2024

Explore the Limits of Omni-modal Pretraining at Scale

Yiyuan Zhang, Handong Li, Jing Liu, Xiangyu Yue

TL;DR我们提出了建立全模态智能的方法，能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文（MiCo），我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力，并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务（包括检索、问答、字幕生成）和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。

Abstract

We propose to build omni-modal intelligence, which is capable of understanding any modality and learning universal representations. In specific, we propose a scalable →

omni-modal intelligence multimodal learning pretraining paradigm universal representations state-of-the-art performance

发现论文，激发创造

CommerceMM: 基于全检索的大规模商业多模态表示学习

CommerceMM 是一种多模态模型，其具备多种理解商业主题的能力，并能够推广到广泛的任务范围，包括多模态分类、图像 - 文本检索、查询 - 产品检索、图像 - 产品检索等。它使用预训练的方式，在图像 - 文本对上完成了 5 个有效的预训练任务，并在 9 个新的跨模态和跨配对检索任务上提出了名为 Omni-Retrieval 的方法。结果表明，该模型在细调后在 7 个与商业相关的下游任务中实现了最先进的性能。

Feb, 2022

UNIMO：通过跨模态对比学习实现统一模态理解和生成

本文介绍了一种名为 UNIMO 的统一单模态预训练架构，它可以有效地适应单模态和多模态理解和生成任务，利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力，并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明，UNIMO 显著改善了几个单模态和多模态下游任务的性能。

Dec, 2020

4M-21：面向数十项任务和模态的任意到任意视觉模型

通过对多个多媒体形式进行联合训练和扩展，我们成功地提升了多模态模型的能力，并展示了训练一个模型以解决更多任务 / 多模态性的可能性，而不损失性能，从而实现更精细化和可控的多模态生成能力。

Jun, 2024

i-Code: 一种集成且可组合的多模态学习框架

该论文提出了一种自我监督的预训练框架 ——i-Code，用户可以将视觉、语音和语言的模态灵活地组合成统一的多用途向量表示，通过融合网络使用新颖的注意机制和其他架构创新来从不同模态中有效地组合信息，实验证明 i-Code 可以优于现有的技术在五个视频理解任务和 GLUE NLP benchmarks 上取得最先进的表现。

May, 2022

面向人类中心感知的多模态通用预训练

本文提出 Human-Centric Multi-Modal Contrastive Learning 框架，通过密集内部样本对比学习和稀疏结构感知对比学习目标，实现多视角数据有效特征表示，为数据高效下游任务转移提供了通用的预训练模型。

Mar, 2022

OmniBind: 教授建立不等比例模态互动以实现全方位绑定

通过提出 OmniBind 框架，该研究解决了多模态学习中训练和推理阶段模态组合不匹配和尺度不均衡的问题，通过跨模态对齐蒸馏和自适应融合模块，实现了任意模态组合和统一表示空间的学习，具有较高的性能提升。

May, 2024

OmniVec：跨模态共享学习的鲁棒表示学习

学习基于任务的方法共享模态的共同之处，共同架构多任务多模态的网络，使得跨模态任务的联合训练能够实现信息共享并获得最先进的结果。

Nov, 2023

OPT: Omni-Perception Pre-Trainer 用于跨模态理解和生成

本文提出了一种跨模态的全视觉感知预训练器，其采用了多任务预训练策略从不同数据粒度学习了对图片、文字和音频的跨模态理解与生成。

Jul, 2021

多模态知识发现和预训练的统一连续学习框架

该研究提出了将多模态预训练和知识发现统一到连续学习框架中的方法，以维护知识图作为基础，同时强化模型更新的外部知识引导作用在跨模态链接识别和预训练模型两方面取得了有效结果。

Jun, 2022

电子商务中基于多模态感知的知识预训练

该论文提出一种名为 K3M 的新方法，通过引入知识模态来进行多模态预训练，以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题，并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。

Aug, 2021