本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在 11 个数据集上表现优于现有方法。
Mar, 2024
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024
本文针对视觉 - 语言模型中的文本提示有限,现有视觉提示方法性能或训练过程不稳定的问题,提出了一种新的渐进式视觉提示结构(ProVP),并结合对比特征重构,最终获得了在 11 个基准数据集上的最佳性能。
Apr, 2023
通过迭代利用图像和当前的编码信息,我们提出了一种新颖的方法 —— 渐进式多模态条件 Prompt 调整(ProMPT),通过多模态提示的方式使视觉 - 语言特征逐步对齐,从而实现从粗糙到准确的分类。在所有设置中,广泛的实验证明了 ProMPT 方法相对于现有方法的优越性。
Apr, 2024
提出了一种通用的多模态对比学习框架,用于结合图像数据和表格数据,通过新颖的表格注意模块增强和排名表格中突出特征,并应用于阿尔茨海默病预测,实验证明了该框架的有效性。
Aug, 2023
为了弥补视觉和语言模态之间的差距,我们提出了 prompt-aware 适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。
Jun, 2024
该研究提出了一种新的多模态神经影像关注机制的卷积神经网络结构,MNA-net,用于预测在 10 年内正常认知个体是否会发展为轻度认知障碍或阿尔茨海默病。通过使用注意机制形成 MRI 和 PET 图像的共享表示,MNA-net 在 OASIS-3 数据集上进行了测试,并具有 83% 的准确率,80% 的真阴性率和 86% 的真阳性率,相比之前的工作准确率和真阴性率分别提高了 5% 和 10%,这些结果表明了该模型在预测认知衰退方面的潜力和通过融合不同神经影像模态的关注机制来改进预测的能力。
Dec, 2023
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
Nov, 2023