DocumentCLIP：连结重排版文档中的图片与正文

Jun, 2023

DocumentCLIP：连结重排版文档中的图片与正文

DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents

Fuxiao Liu, Hao Tan, Chris Tensmeyer

TL;DR本文提出了一种基于 DocumentCLIP 的显著性感知对比学习框架，旨在加强视觉 - 语言预训练模型理解文本内图像与长文本相互作用，并且该模型可用于新闻文章、杂志和产品描述等语言和视觉丰富的内容的实际多模态文本理解。该框架采用自己收集的大型维基百科数据集进行预训练，证明其不仅在受监督学习的情况下优于现有基线，而且在零样本评估中表现最佳。

Abstract

vision-language pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models prim

vision-language pretraining documentclip multimodal document understanding contrastive learning intra-document links

发现论文，激发创造

多模态对比学习中的表示链接

该研究开发了一个名为 CLIPPINGS 的多模态框架，它利用端到端训练，对称视觉和语言双编码器，并通过对比语言 - 图像预训练来将它们对齐，以学习一个度量空间，在这个空间中，给定实例的汇总图像 - 文本表示对于同一类别的表示非常接近，对于不同类别的表示则很遥远。该框架在两个应用方面的表现都超过了广泛使用的字符串匹配方法，并且在不需要任何标签的情况下，仅基于图像 - OCR 对进行自我监督训练的纯自监督模型也比受欢迎的字符串匹配方法表现更好。

Apr, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法，称为 CLIP-ViP，通过视频代理机制改进后续预训练 CLIP，从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取得了 SOTA 结果。

Sep, 2022

中文 CLIP：中文对比视觉 - 语言预训练

该研究使用中文数据构建巨大的图像文本配对数据集，并使用其预训练中文 CLIP 模型，该模型能够在零 - shot 学习和微调设置下，在 MUGE、Flickr30K-CN 和 COCO-CN 上实现最新技术水平，并能够在 ELEVATER 基准测试中实现竞争性能。

Nov, 2022

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023