学习多模态表示的自适应 Transformer

ACLMay, 2020

学习多模态表示的自适应 Transformer

Adaptive Transformers for Learning Multimodal Representations

Prajjwal Bhargava

TL;DR研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

Abstract

The usage of transformers has grown from learning about language semantics to forming meaningful visiolinguistic representations. These architectures are often over-parametrized, requiring large amounts of computation. In this work, we extend adaptive approaches to learn more about mod

transformers interpretability attention mechanism sparse dropout structured dropout

发现论文，激发创造

多模态转换器中数据、注意力和损失的解耦

本文章论述通过训练多模态 transformer 模型，其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务，并研究了三个重要因素：预训练数据、注意机制和损失函数，以评估其对于模型性能的影响。

Jan, 2021

参数高效的多模态变压器用于视频表示学习

本研究针对音视频表示学习中的多模态转换器，通过分解模态特定和模态共享部分，基于低秩逼近提出了一种新的参数共享方案来降低其参数，并提出一种基于 CNN 嵌入空间的实例相似性负采样方法，可以将模型从头开始训练，并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。

Dec, 2020

变压器辅助的语义通信

通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

May, 2024

多模态任务的动态 Transformer 架构

我们提出了一种基于 Transformer 的持续学习框架 TAM-CL，用于学习涉及视觉和语言的多模态任务，并通过引入额外参数和知识蒸馏实现任务间的信息交流，以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。

Jan, 2024

基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的 fMRI 反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

视觉语言变换器：一项调研

视觉语言任务中，基于预训练的变压器架构在视觉语言建模方面表现出色，为视觉和语言结合的任务带来了类似的进展。

Jul, 2023

值得信赖的视觉语言模型的探险：一项调查

通过三个基本原则（偏见、鲁棒性和可解释性）对视觉 - 语言变压器进行深入研究，以提高它们的可靠性和可信度。

Dec, 2023

自适应稀疏 Transformer 多语言翻译

通过采用自适应的、稀疏的多语言建模结构，实现共享参数和语言特定参数的学习，提高正向转移和减轻干扰，从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比，我们在多项基准测试中的表现都超过了强基准，特别是在使用 100 种语言的大规模 OPUS 数据集时，对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数，未增加推理成本。

Apr, 2021