UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力
基于大规模的鲁棒性基准测试,本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024
本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖,通过对高性能视觉 - 语言模型的实验,发现在一些简单任务中完全可以消除双模态监督,但在更复杂的任务中,没有双模态监督将导致随机的性能。然而,利用 5%的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。
Nov, 2022
本文介绍了一种名为 UNIMO 的统一单模态预训练架构,它可以有效地适应单模态和多模态理解和生成任务,利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力,并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明,UNIMO 显著改善了几个单模态和多模态下游任务的性能。
Dec, 2020
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
Oct, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
本文提出了 EfficientCLIP 方法,通过集成自信度学习来获取数据噪声较少的子集,并利用额外的丰富的非配对单模态文本数据来增强文本分支的泛化能力,从而实现了仅使用 CLIP 和 WenLan 的 1/10 培训资源就能达到中文跨模态检索任务的最优表现,并对文本检索和文本分类等单模态任务表现出良好的泛化能力。
Sep, 2021
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能均优于语言图像对比学习和监督学习方法,并且在纯图像标签数据上,其表现也不亚于监督学习方法。
Apr, 2022
本文提出了 u-HuBERT,它是一个能够利用模态失效的自监督预训练框架,可以在保持优秀性能的同时,实现单模型处理多模态的语音输入。
Jul, 2022