通过自己鉴别的编码器加速对比性语言 - 图像预训练

AAAIDec, 2023

通过自己鉴别的编码器加速对比性语言 - 图像预训练

Expediting Contrastive Language-Image Pretraining via Self-distilled Encoders

Bumsoo Kim, Jinhyung Kim, Yeonsik Jo, Seung Hwan Kim

TL;DR利用 ECLIPSE 框架，在统一的文本嵌入空间内解决图像与文本不匹配问题，并在加速推理速度的同时，优于其他方法的性能表现。

Abstract

Recent advances in vision language pretraining (VLP) have been largely attributed to the large-scale data collected from the web. However, uncurated dataset contains weakly correlated image-text pairs, causing data inefficiency. To address the issue, →

vision language pretraining knowledge distillation misalignment problem eclipse text embedding

发现论文，激发创造

MaskCLIP：屏蔽自蒸馏提升对比度语言 - 图片预训练

该文介绍了一个名为 MaskCLIP 的简单而又有效的框架，将一种新提出的掩码自蒸馏方法融入了对比语言 - 图像预训练中。该框架主要利用掩码自蒸馏方法学习局部信息传递，这对文本相关表示的对比学习起到补充作用，并且一定程度上能够从自然语言中得到间接监督。同时，在文本分支中也引入了局部语义监督来提高预训练性能，这个框架在不同的任务中取得了很好的效果。

Aug, 2022

SILC：用自我蒸馏提升视觉语言预训练

基于对 CLIP 模型的改进，本研究提出了 SILC 方法，通过引入本地到全局对应学习来预训练模型，有效提升了计算机视觉领域中的分类、检索和分割等任务的性能，取得了零样本分类、少样本分类、图像与文本检索、无样本分割以及开放词汇分割等方面的最新技术成果。

Oct, 2023

DLIP：语言 - 图像预训练的提炼

通过 DLIP（一个简单有效的 Distilling Language-Image Pre-training 框架）这篇论文，我们从不同维度对模型蒸馏进行了深入研究和分析，包括不同模块的架构特征和不同模态的信息传递，旨在研究如何蒸馏一个轻量的 VLP 模型，并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡，如图像 - 文本检索、图像描述和视觉问答等。

Aug, 2023

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

稳健的跨模态表示学习与渐进式自蒸馏

通过交叉模态对比学习以及软图像 - 文本对齐等方法，改进了 CLIP 模型，在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估，该方法在多种设置下表现均优于 CLIP，并且没有增加计算成本。此外，该方法还在自然分布偏移的鲁棒性测试中表现更好。

Apr, 2022

错位，对比，提炼：再思语言 - 图像预训练中的错位问题

提出了一种新的度量学习方法 ——Misalign, Contrast then Distill (MCD)，该方法利用图像和文本之间的错位作为额外的训练来源，通过预测增强图像和文本之间的连续错位程度，达到了多个分类和检索数据集中最先进的迁移能力。

Dec, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021