学习多模态表示的自适应 Transformer
本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
Jan, 2021
本研究针对音视频表示学习中的多模态转换器,通过分解模态特定和模态共享部分,基于低秩逼近提出了一种新的参数共享方案来降低其参数,并提出一种基于 CNN 嵌入空间的实例相似性负采样方法,可以将模型从头开始训练,并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。
Dec, 2020
我们提出了一种基于 Transformer 的持续学习框架 TAM-CL,用于学习涉及视觉和语言的多模态任务,并通过引入额外参数和知识蒸馏实现任务间的信息交流,以及解决灾难性遗忘问题。该方法在多种挑战性的多模态任务上达到了最先进的性能。
Jan, 2024
本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的 fMRI 反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。
May, 2023
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
通过采用自适应的、稀疏的多语言建模结构,实现共享参数和语言特定参数的学习,提高正向转移和减轻干扰,从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比,我们在多项基准测试中的表现都超过了强基准,特别是在使用 100 种语言的大规模 OPUS 数据集时,对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数,未增加推理成本。
Apr, 2021