视觉语言预训练的精简与有效的跨模态检索

May, 2024

视觉语言预训练的精简与有效的跨模态检索

Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval

Young Kyun Jang, Donghyun Kim, Ser-nam Lim

TL;DR基于大规模预训练模型的学习哈希方法为跨模态检索提供了性能优化，并引入了一种名为 DCMQ 的新方法，利用 VLP 模型的语义知识改进了哈希表示学习，通过引入 PQG 量化方法和 NPC 转换进一步提高了检索性能。

Abstract

``learning to hash'' is a practical solution for efficient retrieval, offering fast search speed and low storage cost. It is widely applied in various applications, such as image-text cross-modal search. In this

learning to hash cross-modal search distillation vlp models quantization

发现论文，激发创造

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

DLIP：语言 - 图像预训练的提炼

通过 DLIP（一个简单有效的 Distilling Language-Image Pre-training 框架）这篇论文，我们从不同维度对模型蒸馏进行了深入研究和分析，包括不同模块的架构特征和不同模态的信息传递，旨在研究如何蒸馏一个轻量的 VLP 模型，并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡，如图像 - 文本检索、图像描述和视觉问答等。

Aug, 2023

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

面向开放词汇多标签分类的基于查询的知识共享

提出了一种基于查询的知识共享范式，通过预训练的 VLP 模型从输入图像中提取关键的视觉知识，并通过有效的提示池进行鲁棒的标签嵌入，进而在零样本任务中显著提高了标签识别的性能。

Jan, 2024

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

Silkie：大型视觉语言模型的偏好蒸馏

本研究探讨大型视觉语言模型 (LVLMs) 的偏好提取，提高其生成有助于和忠实于视觉上下文的回应能力。通过构建视觉语言反馈 (VLFeedback) 数据集并采用 Direct Preference Optimization（DPO）方法，研究人员实现了 Silkie 模型，其在感知和认知能力方面相对提高了 6.9％和 9.5％，同时在 MMHal-Bench 基准测试中取得了 3.02 的最优成绩，证明 DPO 与 VLFeedback 数据集主要提升了 LVLMs 的细粒度感知和复杂认知能力，相比人工标注的偏好数据集实现了更全面的改进。

Dec, 2023

Distill-VQ：通过密集嵌入提取知识进行检索导向量化

该论文提出了一种基于知识蒸馏框架的 Distill-VQ 算法，通过将密集的嵌入作为 “教师” 来预测查询与样本文档的相关性，并将 VQ 模块作为 “学生” 学习以复现预测的相关性，得出的检索结果可以完全保留密集嵌入的检索结果，从而使未标记的数据可以给出丰富的训练信号，无需标记数据的高质量向量量化，该算法在实践中具有很强的适用性。

Apr, 2022