提升视觉增强语言模型的效率
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
提出了一种名为VaLM的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了VaLM在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本文提出了一种新的视觉增强微调方法,名为VAWI,该方法能够将视觉语义注入到不同PLMs或自然语言处理任务中,通过使用视觉饥饿字词的固定CLIP文本编码器来产生视觉增强表示,引入了视觉语义,实验结果表明该方法能够改善BERT、RoBERTa、BART和T5的性能,并显著优于其他竞争基线。
Dec, 2022
本文提出了一种高效适应单模预训练模型解决多模任务的方法eP-ALM,在冻结大多数参数、仅训练一个线性投影层,前置仅一个可训练标记的情况下,显著优于基线,并在图像、视频和音频模态下跨越VQA和字幕的多个基准测试中取得了最佳性能。
Mar, 2023
本文介绍了一种新的、探索性的方法,使大型语言模型能够使用可缩放矢量图形(SVG)格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟,允许LLM直接理解和操作图像,而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习,我们展示了我们方法的潜力在鉴别性和生成性任务上,强调了其对分布偏移的鲁棒性以及通过利用LLM的上下文学习能力实现的重大提高。
Jun, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用MLLMs扩展每个图像的多个标题,通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得5.6〜35.0%和16.8〜46.1%的R@1提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对MLLMs的多方面使用的探索。
Nov, 2023
在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉-语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为“去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了LVLMs在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。
Mar, 2024
通过对具有多模态能力的LLM和MM-LLM的当前状况进行广泛回顾,本文涵盖了LLM的历史发展、注意力机制在提升模型性能方面的作用,以及Fine-tuning和prompt engineering等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在AI研究中的影响。通过这个综述,我们揭示了MM-LLM在各种应用中的转型潜力。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
本研究针对现有的文本到图像模型评估指标无法充分衡量模型处理多样文本提示能力的不足,提出了一种新指标VLEU。该指标通过计算视觉文本的边际分布与模型生成图像的条件分布之间的Kullback-Leibler散度,量化模型的普适性,实验结果表明VLEU对不同模型的评估有效,具有重要的研究意义。
Sep, 2024