通过传导提升视觉语言模型
这篇论文研究了在 CLIP 等视觉语言模型的快速发展文献中被完全忽视的跨导式零样本和少样本 CLIP 分类挑战,其中推断是在一批未标记的查询样本上进行的,而不是独立处理每个实例。通过构建信息性的视觉文本概率特征,本文提出了一个基于最小化问题的分类优化目标,使用 Dirichlet 分布来建模每个类的数据概率分布。我们采用一种新颖的块主导次优化算法来解决这个最小化问题,该算法同时估计分布参数和类别分配。对 11 个数据集进行的大量数值实验证明了我们批处理推断方法的益处和功效。在测试批次包含 75 个样本的零样本任务中,我们的方法在 ImageNet 准确性方面相对于 CLIP 的零样本性能提高了近 20%。此外,在少样本设置中,我们超过了现有的最先进方法。代码可在此链接获得:this https URL
Apr, 2024
提出一种新的从头开始学习带有嘈杂标签的分类网络的框架:Transductive CLIP,包含条件对比学习机制和集成标签策略,能够有效地减少 CLIP 模型嘈杂标签的影响,实验结果表明其在多个基准数据集上显著优于其他最先进的方法。
Jun, 2022
本研究提出了 CLIPTrans 框架,通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型,使它们的嵌入空间对齐,并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点,并将标准基准提升了平均 2.67 个 BLEU 值。
Aug, 2023
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
Apr, 2024
通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型,使其具有多模态生成能力,实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。
Mar, 2022
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法,经过广泛的实验表明,我们的框架显著减少了语言之间的多语言差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数与全模型相比(例如,我们的框架对于每种语言只需要全模型的 0.16% 的额外参数,在 few-shot 学习场景下)。
May, 2023
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024