多模态对比学习中的表示链接

Apr, 2023

Linking Representations with Multimodal Contrastive Learning

Abhishek Arora, Xinmei Yang, Shao Yu Jheng, Melissa Dell

TL;DR该研究开发了一个名为 CLIPPINGS 的多模态框架，它利用端到端训练，对称视觉和语言双编码器，并通过对比语言 - 图像预训练来将它们对齐，以学习一个度量空间，在这个空间中，给定实例的汇总图像 - 文本表示对于同一类别的表示非常接近，对于不同类别的表示则很遥远。该框架在两个应用方面的表现都超过了广泛使用的字符串匹配方法，并且在不需要任何标签的情况下，仅基于图像 - OCR 对进行自我监督训练的纯自监督模型也比受欢迎的字符串匹配方法表现更好。

Abstract

Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops →

record linkage clippings multimodal framework end-to-end training self-supervised model

发现论文，激发创造

DocumentCLIP：连结重排版文档中的图片与正文

本文提出了一种基于 DocumentCLIP 的显著性感知对比学习框架，旨在加强视觉 - 语言预训练模型理解文本内图像与长文本相互作用，并且该模型可用于新闻文章、杂志和产品描述等语言和视觉丰富的内容的实际多模态文本理解。该框架采用自己收集的大型维基百科数据集进行预训练，证明其不仅在受监督学习的情况下优于现有基线，而且在零样本评估中表现最佳。

Jun, 2023

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

MedCLIP: 对未配对的医学影像和文本进行对比学习

本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP，该框架采用了对抗学习和多模式学习，并引入医学知识语义匹配。实验结果表明，MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是，仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。

Oct, 2022

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CyCLIP: 循环对比语言 - 图像预训练

介绍了一种改进的对比表示学习框架 CyCLIP，通过显式对图像和文本空间的几何一致性进行优化，提高了模型的一致性和表现在零样本分类和分布不变性方面。在标准基准测试中，与 CLIP 相比，零样本分类准确率和对自然分布变化的鲁棒性分别提高了 10%-24% 和 10%-27%。

May, 2022

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

跨模态检索遇见推理：通过跨模态检索提升零样本分类

通过跨模态引导和模态置信度集成，X-MoRe 方法利用 CLIP 的跨模态表示能力，从外部图文对数据集中检索相关的文本信息，并通过赋予可靠性更高的模态对最终预测产生贡献，从而在多样化的任务中展示了稳健的性能，充分发挥了 CLIP 的零样本分类能力。

Aug, 2023

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Sep, 2023