CLIP-Event: 连接文本和图像的事件结构

Jan, 2022

CLIP-Event: 连接文本和图像的事件结构

CLIP-Event: Connecting Text and Images with Event Structures

Manling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin...

TL;DR本文提出了一种对视觉语言预训练模型进行对事件及相关参数角色理解的对比学习框架，并结合文本信息提取技术，利用多个提示函数来构造事件结构，设计基于最优传输的事件图形对齐损失来捕获事件参数结构，通过无监督学习进行预训练，并在零样本的情况下取得了优秀的性能。

Abstract

Vision-language (V+L) pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models primarily focus on understanding objects in images or entities in text,

vision-language pretraining event comprehension text information extraction event graph alignment zero-shot learning

发现论文，激发创造

E-CLIP: 通过 CLIP 实现高效标签的事件驱动开放式理解

提出了一种名为 E-CLIP 的框架，它通过引入新颖的事件编码器和文本编码器，以及原始图像编码器，采用层次三重对比对齐 (HTCA) 模块来优化相关性，实现三种模态之间的知识传递，并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外，E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。

Aug, 2023

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

EventCLIP：针对事件的对象识别的 CLIP 适应

本研究提出了一种新的方法：EventCLIP，利用 2D zero-shot recognition 和 few-shot learning 来识别 event camera data，并且使用 temporal feature adapter 来提高模型性能。通过实验证明，EventCLIP 在不同数据集上表现出 state-of-the-art performance，并且能够提高现有的 event-based classifiers 对数据变化的鲁棒性。

Jun, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

DocumentCLIP：连结重排版文档中的图片与正文

本文提出了一种基于 DocumentCLIP 的显著性感知对比学习框架，旨在加强视觉 - 语言预训练模型理解文本内图像与长文本相互作用，并且该模型可用于新闻文章、杂志和产品描述等语言和视觉丰富的内容的实际多模态文本理解。该框架采用自己收集的大型维基百科数据集进行预训练，证明其不仅在受监督学习的情况下优于现有基线，而且在零样本评估中表现最佳。

Jun, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024