基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

May, 2023

基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

Towards Versatile and Efficient Visual Knowledge Injection into Pre-trained Language Models with Cross-Modal Adapters

Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang...

TL;DR本文提出了一种新的插入式模块 X-adapter，用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中，以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。

Abstract

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual

pre-trained language models vision-language models x-adapter multi-modal knowledge natural language understanding

发现论文，激发创造

跨模态适配器：用于视觉语言模型的参数高效迁移学习方法

XMAdapter 是一种跨模态参数高效的适配器方法，通过建立文本和图像的缓存模型，并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合，解耦不同模态相似性以评估其各自的贡献，并通过适应性调整样本学习强度来增强模型性能。实验结果表明，XMAdapter 在准确性、泛化能力和效率方面明显优于以前的基于适配器的方法。

Apr, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和语言能力，并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果，并且具有很强的零样本学习能力。

May, 2022

GraphAdapter: 用双重知识图调整视觉语言模型

通过建立双重知识图，将文本和视觉语义 / 类别之间的关联性进行建模，利用适配器样式的调整策略，在少量数据条件下对视觉 - 语言模型进行调优，提高下游任务的分类器的效果。

Sep, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

PILL: 通过 Adapter Expert 和 Attention Gate 连接到 LLM

利用 PILL 架构，通过适配器专家和注意力门，更好地解耦混合模态下复杂任务，并利用高效调优结构，从而在模态融合方面展现出竞争性表现。

Nov, 2023

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

图像文本：学习可转移的多标签分类适配器

通过预先训练的视觉 - 语言模型，结合适当的调整和随机扰动方法构建了一个能够自动识别图像标签的全自动流水线，该方法在各种多标签分类任务中显示出优越性能。

Dec, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

透过适配器模块从自然语言到代码的跨模态转换

本文研究了使用适配器在软件工程中进行知识转移的方法，对 C/C++、Python 和 Java 三种编程语言中的 cloze 测试和代码克隆检测等任务进行了广泛的实验，并将该方法与基准进行了比较，在参数数量、内存使用和推理时间等方面更加高效。

Apr, 2022