增强 CLIP 的改进视觉语言推理

Jul, 2023

Augmenting CLIP with Improved Visio-Linguistic Reasoning

Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

TL;DR通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Abstract

Image-text contrastive models such as clip are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on →

clip compositional visio-linguistic tasks sds-clip visio-linguistic reasoning distillation objectives

发现论文，激发创造

SemEval-2023 任务 1 的增强器：通过提示增强和文本图像扩散增强 CLIP 在处理零样本视觉词义消歧中的复合性和歧义性能力

本文有关英文文本下的视觉词义消岐，作者通过两种方法 Augment-CLIP 与 Stable Diffusion Sampling 解决了匹配过程中复杂的组合问题，其中 Augment-CLIP 采用了较大的语言模型来生成文本提示。

Jul, 2023

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了 CLIP 的零样本推理能力。

Nov, 2022

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

FiGCLIP: 细粒度 CLIP 适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

基于 CLIP 的场景文本识别的对称语言特征提取

利用对比语言图像预训练（CLIP）模型在场景文本识别（STR）中的潜力，我们建立了一个新的对称语言特征提取框架（称为 CLIP-OCR），以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联，我们构建了一个对称结构，其中包括了从图像到文本的特征传递流，覆盖了视觉和语言信息的提取。实验表明，CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。

Oct, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023