视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

EMNLPSep, 2021

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers

Stella Frank, Emanuele Bugliarello, Desmond Elliott

TL;DR研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Abstract

pretrained vision-and-language berts aim to learn representations that combine information from both modalities. We propose a diagnostic method based on cross-modal input ablation to assess the extent to which th

pretrained vision-and-language berts cross-modal input ablation modality-specific tasks cross-modal representations symmetrically cross-modal

发现论文，激发创造

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

多模视觉监督对语言有益吗？

本文探讨和研究使用视觉监督学习的语言表示相对于常规语言表示对自然语言理解和常识推理基准测试的优劣，并根据多个图文模型和视频文本模型的实验结果发现，常规语言表示在多数任务中表现更好，揭示了视觉 - 语言模型当前的缺陷。

Feb, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

用更少的双模态监督训练视觉 - 语言模型

本次研究旨在探究如何在预训练视觉 - 语言模型中减少对平行数据的依赖，通过对高性能视觉 - 语言模型的实验，发现在一些简单任务中完全可以消除双模态监督，但在更复杂的任务中，没有双模态监督将导致随机的性能。然而，利用 5％的双模态数据或弱监督产生的标签仅会引起中等程度的性能下降。

Nov, 2022

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的 fMRI 反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

跨模态属性插入，评估视觉语言学习的鲁棒性

本文提出了一种跨模态属性插入的策略，该策略将图像中的视觉属性插入到文本数据中，用于深度视觉和语言模型的鲁棒性评估，并发现相对于纯文本数据，跨模态属性插入提高了深度视觉和语言模型的数据增广质量。

Jun, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021