通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
Sep, 2021
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
通过 DLIP(一个简单有效的 Distilling Language-Image Pre-training 框架)这篇论文,我们从不同维度对模型蒸馏进行了深入研究和分析,包括不同模块的架构特征和不同模态的信息传递,旨在研究如何蒸馏一个轻量的 VLP 模型,并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡,如图像 - 文本检索、图像描述和视觉问答等。
Aug, 2023
本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法,该方法利用蒸馏和剪枝技术,通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数,具有 98.4%的性能表现,并在各种视觉 - 语言任务中取得了令人瞩目的结果。
Oct, 2022
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023
本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法,利用文本无监督训练实现了图像和视频描述的最新零样本表现。
Apr, 2023
本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化能力。
Jan, 2022