模式逼近生成优秀的视觉语言提示
近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。
Sep, 2023
本文提出使用提示向量来对齐模态,从而实现在低资源情况下,与其他多模态融合方法相当的性能,并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。
Mar, 2022
通过参数高效调优,利用指令调整和多模态对齐的方法,本研究提出了一种新的通用视觉 - 语言模型训练方法 PETAL,其通过独特的模式近似技术,显著减少了训练成本和对重计算资源的依赖,并在语义深度方面进行了改进。实验证明,PETAL 在多个方面超越了现有最先进的方法,同时在少样本设置中也展现了出色的优势。
Dec, 2023
通过 Transferable Visual Prompting (TVP) 这一新方法,在只对一个模型进行训练的情况下,有效改善多样化的 Multimodal Large Language Models (MLLMs) 的性能,以提高其在下游任务中的应用能力。
Apr, 2024
该论文提出了一种高效灵活的多模式融合方法 PMF,可用于融合单模式预训练变压器。在此基础上,还将香草提示解开为三种类型,以学习多模态学习的不同优化目标,并且仅在单模态变压器的深层次上添加提示向量,从而显著减少了训练的内存使用
Apr, 2023
跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt,一种多任务框架,可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块,我们能够有效地编码跨模态提示。通过集成 Transformer 模型,增强了对不同模态间全局特征的提取,实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。
Oct, 2023
本研究提出了分区多模态提示方法(PMPO),将软提示从单个可学习提示扩展到多个提示,以捕获视觉表示的分层上下文深度。此外,我们结合手动设计的模板和可学习的多提示,以提高方法的泛化能力,并在新类别概括、跨数据集评估和领域泛化等三项具有挑战性的任务上验证了它的有效性。
May, 2023
XMAdapter 是一种跨模态参数高效的适配器方法,通过建立文本和图像的缓存模型,并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合,解耦不同模态相似性以评估其各自的贡献,并通过适应性调整样本学习强度来增强模型性能。实验结果表明,XMAdapter 在准确性、泛化能力和效率方面明显优于以前的基于适配器的方法。
Apr, 2024
本论文提出了一种新的双向引导空间 - 通道 - 时间(DG-SCT)注意力机制,通过引入可训练的跨模态交互层,从当前模态跨空间、通道和时间维度自适应地提取关键信息,以解决多模态任务中的特征提取挑战,其结果在多个下游任务中达到最先进水平,并在挑战性的少样本和零样本场景中表现出良好性能。
Nov, 2023