模式逼近生成优秀的视觉语言提示

May, 2023

模式逼近生成优秀的视觉语言提示

Mode Approximation Makes Good Vision-Language Prompts

Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun...

TL;DR本研究提出了 Aurora，一个优美的提示框架，用于跨模态传递，以解决模型复杂性和模态对齐问题。在六个跨模态下游基准测试中， Aurora 不仅优于最先进的方法，甚至优于完全微调方法。

Abstract

With the advance of large-scale model technologies, parameter-efficient transfer learning (PETL) has swept across various fields of Artificial Intelligence. Its core idea is to adapt the model to downstream tasks using only a small number of parameters. Recently, some studies have applied these techniques proven effective to →

parameter-efficient transfer learning multimodal tasks cross-modal transfer low parameters state-of-the-art

发现论文，激发创造

多模式提示下的零备和少备视频问答

近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战，本研究引入了一种参数高效的方法来解决这些问题，通过结合多模态提示学习和基于 Transformer 的映射网络，在预训练模型的冻结状态下实现。在几个视频问答基准测试中，我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。

Sep, 2023

跨模态调整多模式令牌级提示对齐

利用最优传输的多模式令牌级调优框架，发现了多种视觉概念，实现了精确的语义对齐，优于传统方法。

Sep, 2023

具有提示的模块化和参数高效的多模态融合

本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。

Mar, 2022

参数高效调节与通用视觉语言模型的结合

通过参数高效调优，利用指令调整和多模态对齐的方法，本研究提出了一种新的通用视觉 - 语言模型训练方法 PETAL，其通过独特的模式近似技术，显著减少了训练成本和对重计算资源的依赖，并在语义深度方面进行了改进。实验证明，PETAL 在多个方面超越了现有最先进的方法，同时在少样本设置中也展现了出色的优势。

Dec, 2023

探索视觉提示在多模态大型语言模型中的可转移性

通过 Transferable Visual Prompting (TVP) 这一新方法，在只对一个模型进行训练的情况下，有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能，以提高其在下游任务中的应用能力。

Apr, 2024

通过交互提示实现高效多模态融合

该论文提出了一种高效灵活的多模式融合方法 PMF，可用于融合单模式预训练变压器。在此基础上，还将香草提示解开为三种类型，以学习多模态学习的不同优化目标，并且仅在单模态变压器的深层次上添加提示向量，从而显著减少了训练的内存使用

Apr, 2023

MedPrompt：跨模态提示多任务医学影像翻译

跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt，一种多任务框架，可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块，我们能够有效地编码跨模态提示。通过集成 Transformer 模型，增强了对不同模态间全局特征的提取，实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。

Oct, 2023

多提示与深度分割的跨模态学习

本研究提出了分区多模态提示方法（PMPO），将软提示从单个可学习提示扩展到多个提示，以捕获视觉表示的分层上下文深度。此外，我们结合手动设计的模板和可学习的多提示，以提高方法的泛化能力，并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。

May, 2023

跨模态适配器：用于视觉语言模型的参数高效迁移学习方法

XMAdapter 是一种跨模态参数高效的适配器方法，通过建立文本和图像的缓存模型，并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合，解耦不同模态相似性以评估其各自的贡献，并通过适应性调整样本学习强度来增强模型性能。实验结果表明，XMAdapter 在准确性、泛化能力和效率方面明显优于以前的基于适配器的方法。

Apr, 2024

跨模态提示：为音频 - 视觉下游任务调整大型预训练模型

本论文提出了一种新的双向引导空间 - 通道 - 时间（DG-SCT）注意力机制，通过引入可训练的跨模态交互层，从当前模态跨空间、通道和时间维度自适应地提取关键信息，以解决多模态任务中的特征提取挑战，其结果在多个下游任务中达到最先进水平，并在挑战性的少样本和零样本场景中表现出良好性能。

Nov, 2023