该研究使用中文数据构建巨大的图像文本配对数据集,并使用其预训练中文 CLIP 模型,该模型能够在零 - shot 学习和微调设置下,在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平,并能够在 ELEVATER 基准测试中实现竞争性能。
Nov, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
本文提出一种跨媒体对比学习方法,将几种低资源语言与高资源语言相连,通过少量的图像 - 文本对实现神经机器翻译,取得了显著的效果。
Oct, 2022
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
该研究提出了 RC^3 pre-training 方法,该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练,并在下游的多模态任务中表现出更强的效果。
May, 2023
对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言(VL)和音频 - 语言(AL)任务有所帮助,本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响,发现句子嵌入训练有助于提高对比 VL 模型的性能,但在 AL 预训练中效果较少,可能是由于预训练数据量有限所致。通过对表示空间的分析,句子嵌入训练改善了文本空间的均匀性,但降低了交叉模态对齐性。
Oct, 2023
本文提出了一种基于对比学习的无偏置视觉 - 语言预训练方法,可以在多模态表示学习中获得更好的性能,在验证集 VQA、GQA 和 NLVR2 中取得了良好的结果。
Jul, 2020
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
Jul, 2022
本研究主要探讨了视觉与语言的联合预训练,提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中,我们将其应用于包括 VQA,VCR,NLVR,RPG,TIR 和 ZS-TIR 在内的六项主要任务中,并与基准模型进行比较,结果表明我们的方法具有明显的优势。
Apr, 2023