多模态转换器中数据、注意力和损失的解耦

Jan, 2021

多模态转换器中数据、注意力和损失的解耦

Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers

Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, Aida Nematzadeh

TL;DR本文章论述通过训练多模态 transformer 模型，其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务，并研究了三个重要因素：预训练数据、注意机制和损失函数，以评估其对于模型性能的影响。

Abstract

Recently multimodal transformer models have gained popularity because their performance on language and vision tasks suggest they learn rich visual-linguistic representations. Focusing on →

multimodal transformer models visual-linguistic representations zero-shot image retrieval pretraining data attention mechanisms

发现论文，激发创造

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

遥感数据融合的不完全多模态学习

本文提出了一种新颖的不完整多模态学习模型，结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号，利用重构和对比损失来促进预训练中的融合，能在处理数据不完整输入时达到当前最佳性能水平。

Apr, 2023

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

预训练纯文本 Transformer 中的多模态神经元

通过向文本转换器添加视觉信息，我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态，在转换器内部发现了模态之间的转换，并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作，并对图像字幕生成产生系统性的因果影响。

Aug, 2023

视觉与语言还是视觉为语言？多模态 Transformer 中的跨模态影响

研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法，通过交叉模态输入消融来评估这些模型集成跨模态信息的程度，并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难，表明这些模型不是对称的跨模态。

Sep, 2021

LILE: 使用 Transformer 的双重注意力网络进行组织病理学资料检索前深入查看

提出了一种使用自注意力作为额外损失项的新架构，以在联合潜在空间中表示图像和文本；在 MS-COCO 和 ARCH 两个基准数据集上进行的实验结果表明，该方法具有很好的效果。

Mar, 2022

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

多模态语言模型的性能评估

该研究分析了不同的多模态指导调优方法，并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能，揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解，但当前方法存在局限性，未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题，这些发现阐明了适应图像理解的语言模型的现有方法学限制，并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。

Oct, 2023