利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
本文提出基于 adapter 的参数高效迁移学习技术,以 VL-BART 和 VLT5 为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高 adapter 的效率和性能,在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%,匹配了整个模型微调的性能,同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。
Dec, 2021
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
XMAdapter 是一种跨模态参数高效的适配器方法,通过建立文本和图像的缓存模型,并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合,解耦不同模态相似性以评估其各自的贡献,并通过适应性调整样本学习强度来增强模型性能。实验结果表明,XMAdapter 在准确性、泛化能力和效率方面明显优于以前的基于适配器的方法。
Apr, 2024
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023
本论文提出了一种名为 IDEA 的方法,该方法利用多标签识别来增加文本多样性,从而提高视觉语言预训练(VLP)的性能,实验证明该方法可以在多个下游数据集上显著提升性能。
Jul, 2022
该研究论文提出了一种使用伪视觉提示的模块来改进多标签图像分类的性能,通过将伪视觉提示与文本提示结合,增强它们的视觉表示能力,并在多个数据集上展示了超过现有方法的性能提升。
May, 2024
使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数,以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明,该解决方案可以轻松集成在图像分类和物体检测管道中,在多种情况下产生显著的性能增益,并提供模型偏差和标注误差的见解。
Apr, 2023
通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层,我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法,从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外,我们还提出了一种参数保留的方法,通过衡量参数重要性,在增量学习过程中更好地保持稳定性和可塑性。实验证明,最简单的解决方案 —— 一个具有参数保留的线性适配器层,获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。
Oct, 2023
本文提出了一种新的插入式模块 X-adapter,用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中,以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。
May, 2023