BDC-Adapter: 布朗运动距离协方差在视觉语言推理中的改进

Sep, 2023

BDC-Adapter: 布朗运动距离协方差在视觉语言推理中的改进

BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning

Yi Zhang, Ce Zhang, Zihan Liao, Yushun Tang, Zhihai He

TL;DR本研究提出了一种基于 Brownian 距离协方差的 BDC-Adapter 方法，通过模拟所有可能关系以测量特征依赖性，在执行分类任务时可以灵活处理非线性关系并充分表征独立性，实验证明其在性能上大幅超过了当前最先进的方法。

Abstract

Large-scale pre-trained vision-language models (VLMs), such as CLIP and ALIGN, have introduced a new paradigm for learning transferable visual representations. Recently, there has been a surge of interest among researchers in developing lightweight →

pre-trained vision-language models fine-tuning techniques brownian distance covariance bdc-adapter classification tasks

发现论文，激发创造

联合分布至关重要：用深度布朗运动距离协方差进行小样本分类

该研究提出了一种深层布朗运动距离协方差（DeepBDC）方法来解决少样本分类问题，其关键思想是通过测量嵌入特征的联合特征函数与边缘特征的乘积之间的差异来学习图像表示，实验表明 DeepBDC 显着优于同类方法，创造了新的最先进结果。

Apr, 2022

跨模态视觉推理的测试时分布学习适配器

在本研究中，我们提出了一种名为 TT-DNA 的测试时分布学习适配器，通过在测试期间直接建模来自支持集的视觉特征的高斯分布，将其与原始的 CLIP 预测进行残差连接，得到最终预测。我们在人类对象交互的视觉推理方面的广泛实验结果表明，我们提出的 TT-DNA 方法在性能上明显优于现有的最先进方法。

Mar, 2024

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

May, 2023

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

ContextBLIP: 对语言复杂描述的对比图像检索进行双重上下文对齐

ContextBLIP 是一种简单而有效的方法，依赖于双重上下文对齐方案进行具有挑战性的基于语言复杂文本的图像检索。

May, 2024

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

图像检索中通过对抗学习的边界感知的向后兼容表示

介绍了在视觉检索系统中，从传统模型更新到新模型需要重新计算所有图片嵌入，所以引入兼容性训练（BCT）的方法，并提出了 Adversarial Backward-Compatible Training（AdvBCT）方法进行对比实验，表明其在兼容性和辨别性方面均优于其他 BCT 方法。

May, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021