增强 CLIP 的改进视觉语言推理
本文有关英文文本下的视觉词义消岐,作者通过两种方法 Augment-CLIP 与 Stable Diffusion Sampling 解决了匹配过程中复杂的组合问题,其中 Augment-CLIP 采用了较大的语言模型来生成文本提示。
Jul, 2023
本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
使用一种新颖的生成方法,我们对大型视觉语言模型(如 GPT-4)进行控制,以描述图像并进行组合推理,在 Winoground 数据集上优于其他嵌入式方法,并在最佳描述的增强下获得最高 10% 的准确率改进。
Jan, 2024
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
利用对比语言图像预训练(CLIP)模型在场景文本识别(STR)中的潜力,我们建立了一个新的对称语言特征提取框架(称为 CLIP-OCR),以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联,我们构建了一个对称结构,其中包括了从图像到文本的特征传递流,覆盖了视觉和语言信息的提取。实验表明,CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。
Oct, 2023
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
Jun, 2023