探索视觉提示在多模态大型语言模型中的可转移性
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持PLMs参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。
Jun, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在RGB图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
通过对大型多模态模型(LMMs)的全面评估和基于视觉引导提示的不同策略的现有研究,本研究找到了提高LMMs性能的潜力和改进空间,并揭示了视觉引导提示对LMMs准确性的重要影响。
Dec, 2023
我们介绍了Draw-and-Understand项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了MDVP-Data和MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
为了弥补视觉和语言模态之间的差距,我们提出了prompt-aware适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明prompt-aware适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
通过将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示,本论文提出的新的视觉提示方法可轻松地融入各种多模态大语言模型,从而显著提高它们的视觉理解性能。经过严格的实验证明,我们的方法可以增强多模态大语言模型在九个基准测试中的性能,增强它们的细粒度上下文感知能力。
Jul, 2024
本研究解决了多模态大语言模型(MLLM)中视觉提示注入的无训练方法缺口。我们提出了一种通过可学习的视觉令牌优化来实现该目的的新颖方法,并在推理阶段优化视觉令牌,以增强注意力图中参考区域的强度。研究结果表明,该方法不仅具备良好的可控性和可解释性,还能有效整合参考能力。
Jul, 2024
本研究解决了大型视觉语言模型(LVLM)在处理图像输入时未能有效结合文本查询的问题。我们提出了一种新颖的注意力引导技术,通过在输入图像上叠加文本查询引导的注意力热图,以提升模型的任务完成能力。实验结果显示,该技术显著提高了LVLM在多个视觉语言基准上的表现。
Sep, 2024
本研究针对现有多模态大语言模型(MLLMs)在视觉语言任务中的盲点,提出了PIP-MM框架,该框架将提示信息预集成到视觉编码过程中。该方法显著提高了图像特征对提示要求的敏感性,减少了冗余信息的干扰,从而在多个基准测试中展现出卓越的性能,尤其是在视觉标记数量减少的情况下,依然保持良好的生成效果。
Oct, 2024