从多模态输入中获取语言知识

Feb, 2024

Acquiring Linguistic Knowledge from Multimodal Input

Theodor Amariucai, Alex Warstadt

TL;DR利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Abstract

In contrast to children, language models (LMs) exhibit considerably inferior data efficiency when acquiring language. In this submission to the BabyLM Challenge (Warstadt et al., 2023), we test the hypothesis tha

language models data efficiency multimodal input grounding catastrophic forgetting

发现论文，激发创造

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言 (VL) 多模态预训练模型适应于仅文本输入，我们研究并比较了适应 VL 模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本 - only 任务，VL 模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于 VL 模型，提示当前的 VL 模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Sep, 2021

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

用更少的双模态监督训练视觉 - 语言模型

本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖，通过对高性能视觉 - 语言模型的实验，发现在一些简单任务中完全可以消除双模态监督，但在更复杂的任务中，没有双模态监督将导致随机的性能。然而，利用 5％的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。

Nov, 2022

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023

像婴儿一样：视觉背景下的神经语言习得

通过实验证明了在多模态环境中进行语言学习可以提高预测准确率，该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试，并得出了这个认识与身处环境相应认知理论相对应的结论。

May, 2018

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉 - 语言模型（VLMs），在绕过现有的安全训练技术（如 SFT 和 RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在 VLMs 中进行文本反学习显著减少攻击成功率（ASR）至少低于 8％，甚至在某些情况下低至近 2％，同时保留实用性。

May, 2024

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023