从多模态输入中获取语言知识
为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入,我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明,对于零样本文本 - only 任务,VL 模型需要小心适应,而对于非零样本任务,模型对适应方法不敏感。我们还发现,对于不同的模型,适应方法的表现各不相同,而单模态模型趋同于 VL 模型,提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。
Sep, 2022
研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法,通过交叉模态输入消融来评估这些模型集成跨模态信息的程度,并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难,表明这些模型不是对称的跨模态。
Sep, 2021
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
本综述以数据为中心的视角全面回顾多模态大型语言模型的文献,探索了在多模态数据准备、预训练和适应阶段的方法,分析了数据集的评估方法和评估多模态大型语言模型的基准。此外,本综述还概述了未来的研究方向,以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解,推动该领域的进一步探索和创新。
May, 2024
本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖,通过对高性能视觉 - 语言模型的实验,发现在一些简单任务中完全可以消除双模态监督,但在更复杂的任务中,没有双模态监督将导致随机的性能。然而,利用 5%的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。
Nov, 2022
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
通过实验证明了在多模态环境中进行语言学习可以提高预测准确率,该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试,并得出了这个认识与身处环境相应认知理论相对应的结论。
May, 2018
将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本反学习显著减少攻击成功率(ASR)至少低于 8%,甚至在某些情况下低至近 2%,同时保留实用性。
May, 2024
通过逐步可控的比较,我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA,一系列视觉语言模型,无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性,包括多图像推理、增强的上下文学习和更好的世界知识。
Dec, 2023