VL-Adapter:用于视觉语言任务的参数效率转移学习
本研究提出一个新的模型Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉-语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持PLMs参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。
Jun, 2023
本研究提出了一种名为“Approximated Prompt Tuning”的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
通过自然语言提示,我们提出了一种新颖的视觉语言模型微调方法,利用基于对话的大型语言模型作为黑盒优化器,在少样本图像分类任务中通过对话过程中的文本反馈,自动搜索最佳文本提示,从而避免了对模型参数、特征嵌入或输出标签的访问。
Sep, 2023
通过建立双重知识图,将文本和视觉语义/类别之间的关联性进行建模,利用适配器样式的调整策略,在少量数据条件下对视觉-语言模型进行调优,提高下游任务的分类器的效果。
Sep, 2023
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了VLMs的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
大规模预训练模型已在各种计算机视觉任务中取得了显著成果。然而,与其它单一任务的适应性方法相比,在多任务适应方面的研究有限,这些方法往往表现出次优的训练和推理效率。本文首先提出了一种全能视觉多任务适配器(VMT-Adapter),其训练和推理效率与任务数量近似为O(1)。具体而言,VMT-Adapter通过共享多个任务的知识来增强跨任务交互,并通过独立知识提取模块保留了任务特定的知识。此外,本文还提出了VMT-Adapter-Lite,通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。对四个密集场景理解任务的大量实验证明了VMT-Adapter(-Lite)的优越性,相比于单一任务的全面微调,它们分别实现了3.96%(1.34%)的相对改进,并仅利用了预训练模型的约1%(0.36%)的可训练参数。
Dec, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
本文提出了一种新的建模框架,将适配器调谐视觉-语言模型中的注意力转化为基于注意力图的图消息传递过程,其中,投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中,适配器调谐视觉-语言模型需要处理异种图,为此,我们提出了一种新的适配器架构$p$-adapter,在图神经网络中使用$p$-Laplacian消息传递。我们在不同的预训练的视觉-语言模型和多模态任务上进行了大量实验,包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。
Dec, 2023
为了弥补视觉和语言模态之间的差距,我们提出了prompt-aware适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024