M6:一个中文多模态预训练模型
本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型,其中包含了超过 650M 的弱相关和强相关的图片 - 文本对,并经过实验证明,WuDaoMM 是一种高效的 VLPMs 数据集。
Mar, 2022
该研究旨在提高跨语言文本之间转换的效果。通过使用三种跨语言文本 - to-text 预训练任务和部分非自回归目标,将 Multilingual T5 的结果进一步提高到 mT6。经过实验验证,该方法提高了基于八个多语言基准数据集的跨语言转移能力。
Apr, 2021
该论文提出了一种基于 E-commerce 的多模态预训练数据集 M5Product 和一种名为 SCALE 的预训练框架,实现了不同模态特征的融合和学习,并在四个下游任务中展示了其优越性,该方法具有重要的数据集规模和多样性。
Sep, 2021
本文介绍了 “Wan Juan” 数据集,一个大规模多模态数据集,包括中英文数据、文本、图像文本和视频模态,总容量超过 2TB。该数据集被用于训练 InternLM 模型,在与类似规模的模型相比的多维评估中展现出显著优势。
Aug, 2023
我们介绍了一个包含 60 亿个图像 - 文本配对的双语(中英文)数据集 BM-6B,通过提出一种新颖的分组聚合方法来处理此规模的数据集,大大减少了通信开销和 GPU 内存需求,从而提高了训练速度,我们预训练了一系列双语图像 - 文本基础模型,并在 BM-6B 上取得了提升视觉和文本理解能力的成果,这些模型在多模态检索和分类任务方面树立了新的基准,并且我们的最大模型在零样本分类设置下,在 ImageNet 上的 top-1 准确率分别超过了以前报道的 SoTA 方法 2.2% 和 21.1%。
Jan, 2024
通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势,并为多模态学习在视觉和其他领域的进一步探索提供了基础。
Dec, 2023
本文提出了一种自主监督的共享编码器模型,在数据、内存和运行时效率高的同时,在几个视觉、语言和多模式基准测试中取得了强大结果。
Apr, 2023
通过对多个多媒体形式进行联合训练和扩展,我们成功地提升了多模态模型的能力,并展示了训练一个模型以解决更多任务 / 多模态性的可能性,而不损失性能,从而实现更精细化和可控的多模态生成能力。
Jun, 2024
我们提出了建立全模态智能的方法,能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文(MiCo),我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力,并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务(包括检索、问答、字幕生成)和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。
Jun, 2024
该论文提出了一种基于多模态预训练的新型模型 InterBERT,通过预训练的方式实现了多个任务,包括掩码片段建模、掩码区域建模和图像与文本匹配,并在视觉和语言下游任务上进行了 fine-tuning,最终实现了基于主题的推荐和基于文本的图像检索。
Mar, 2020