视觉 - 语言预训练中的虚假负样例转换与平滑化

Dec, 2023

视觉 - 语言预训练中的虚假负样例转换与平滑化

Converting and Smoothing False Negatives for Vision-Language Pre-training

Jaeseok Byun, Dohoon Kim, Taesup Moon

TL;DR我们提出了一种名为 COSMO 的方法，通过对虚假负样本进行处理，尤其在难样本采样方面有很强的能力，来解决视觉语言预训练 (VLP) 中虚假负样本的问题。我们的方法基于最近开发的 GRouped mIni-baTch 采样 (GRIT) 策略，包括两个关键组成部分：一是有效的连接挖掘过程，用于识别并将虚假负样本转换为正样本；二是用于图像 - 文本对比损失 (ITC) 的标签平滑处理。我们的综合实验证明了 COSMO 在多个下游任务上的有效性，强调了在 VLP 中解决虚假负样本的重要性，甚至可能超过解决虚假正样本的重要性。此外，我们还证明了 COSMO 与最新的 BLIP-family 模型的兼容性。

Abstract

We consider the critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of →

vision-language pre-training false negatives cosmo hard negative sampling grit

发现论文，激发创造

通过交叉模态相似度调节的对比学习进行视觉语言预训练

本文从互信息（MI）优化的角度研究了预训练中视觉语言交互 (VLP) 面临的（部分）误负样本的挑战，并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI，从而在四个下游跨模态任务中具有竞争力，平衡了（部分）误负样本的有益和有害效果。

May, 2023

利用伪造的图像标题进行多模态摘要

本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响，并提出了一种渐进式改进的交叉模态相似度对比学习策略，在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡，这种方法在四个下游交叉模态任务中表现良好。

May, 2023

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

本文研究视觉语言对比预训练中的问题，提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法，并通过使用 sigmoid loss 进行训练，在图像识别和图像检索方面取得了非常大的增益。

May, 2024

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

通过困难负样本增强多模态对比学习中的概念理解

通过合成困难的负面文字示例，引入了一种新的预训练方法来改善视觉 - 语言模型中细粒度概念理解的问题，并介绍了一个新的具有挑战性的用于评估颜色、物体和大小细粒度对齐的数据集 InpaintCOCO。

Mar, 2024

面向持续视觉语言预训练的生成式负文本重播

本研究针对连续多模态学习中的遗忘问题，通过伪文本回放和多模态知识蒸馏的方法，实现了基于图像和文本对的连续预训练，大幅提高了零样本图像分类和图像 - 文本检索任务的性能。

Oct, 2022

视觉语言预训练的过滤、蒸馏和难负样本

通过对大规模嘈杂数据进行对比学习训练的视觉 - 语言模型正在变得越来越受欢迎用于零样本识别问题，本文在数据集噪声、模型初始化和训练目标三个方面对对比预训练管道进行了改进。通过 Complexity、Action、and Text-spotting（CAT）筛选策略、概念蒸馏以及重要性采样方法，我们的 DiHT 方法极大地提高了对零样本和几样本线性探测的效果。

Jan, 2023

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023

学会更好地说 “是” 的方法：通过否定改进视觉语言模型

通过引入 CC-Neg 数据集和 CoN-CLIP 框架，我们的工作解决了视觉语言模型中一个重要的局限性，加强了图像和文本之间的语义关联，展示了具有显著降低计算成本的改进型大规模基础模型，提升了效率和可访问性。

Mar, 2024

测量和消除视觉语言预训练模型中的社会偏见

本研究针对 Vision-Language Pre-training（VLP）模型的社会偏见问题，提出了一种基于反事实的偏见测量方法 CounterBias、构建了一个包含 24K 图像 - 文本对的新颖 VL-Bias 数据集并在其中观察到了 VLP 模型中普遍存在的显著性别偏见，提出了最小化 VLP 去偏差的思路 FairVLP。

Jul, 2022