通过交叉模态相似度调节的对比学习进行视觉语言预训练

May, 2023

通过交叉模态相似度调节的对比学习进行视觉语言预训练

Vision Lanauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

Chaoya Jiang, Wei Ye, Haiyang Xu, Miang yan, Shikun Zhang...

TL;DR本文从互信息（MI）优化的角度研究了预训练中视觉语言交互 (VLP) 面临的（部分）误负样本的挑战，并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI，从而在四个下游跨模态任务中具有竞争力，平衡了（部分）误负样本的有益和有害效果。

Abstract

cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimiz

cross-modal contrastive learning mutual information optimization progressively refined cross-modal similarity false negatives downstream cross-modal tasks

发现论文，激发创造

利用伪造的图像标题进行多模态摘要

本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响，并提出了一种渐进式改进的交叉模态相似度对比学习策略，在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡，这种方法在四个下游交叉模态任务中表现良好。

May, 2023

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023

三重对比学习视觉语言预训练

本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现。

Feb, 2022

对比学习中的互信息在视觉表征中的应用

本论文探讨了基于对比学习的图像表示学习方法，提出了一种最大化互信息的下界的目标函数，并在实验中发现选择难度更大的负样本以及视角可以提高算法性能。通过比较多种学习方法，研究结果表明，基于互信息的目标函数可以使得算法在分类、边界框检测、实例分割和关键点检测等任务上获得更好的表现。

May, 2020

对比视觉语言预训练

本文提出了一种基于对比学习的无偏置视觉 - 语言预训练方法，可以在多模态表示学习中获得更好的性能，在验证集 VQA、GQA 和 NLVR2 中取得了良好的结果。

Jul, 2020

通过逐点互信息理解多模态对比学习

本研究探讨了多模态表示学习中对称 InfoNCE 损失的理论理解，通过点间互信息的视角展示了达到预训练最优相似度的编码器在下游分类任务中提供了良好的表示。我们基于理论结果，提出了一种新的多模态对比学习相似度度量方法，并利用非线性核函数增强了其能力。通过在 Conceptual Caption 数据集上进行多模态表示模型的预训练，并在常用基准数据集上进行零样本分类和线性分类的评估，验证了所提方法的有效性。

Apr, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

视觉 - 语言预训练中的虚假负样例转换与平滑化

我们提出了一种名为 COSMO 的方法，通过对虚假负样本进行处理，尤其在难样本采样方面有很强的能力，来解决视觉语言预训练 (VLP) 中虚假负样本的问题。我们的方法基于最近开发的 GRouped mIni-baTch 采样 (GRIT) 策略，包括两个关键组成部分：一是有效的连接挖掘过程，用于识别并将虚假负样本转换为正样本；二是用于图像 - 文本对比损失 (ITC) 的标签平滑处理。我们的综合实验证明了 COSMO 在多个下游任务上的有效性，强调了在 VLP 中解决虚假负样本的重要性，甚至可能超过解决虚假正样本的重要性。此外，我们还证明了 COSMO 与最新的 BLIP-family 模型的兼容性。

Dec, 2023

RC3：正则化对比交叉语言交叉模态预训练

该研究提出了 RC^3 pre-training 方法，该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练，并在下游的多模态任务中表现出更强的效果。

May, 2023

强健的对比学习抵抗嘈杂视图

本文提出一种新的对抗噪声视图具有鲁棒性的对比损失函数，它在图像、视频和图形上的对比学习基准测试中提供了一致的改进，并且是模态无关和与 InfoNCE 损失的一个简单替代方法。

Jan, 2022