基于交换的多模态融合和转换器

Sep, 2023

Exchanging-based Multimodal Fusion with Transformer

Renyu Zhu, Chengcheng Han, Yong Qian, Qiushi Sun, Xiang Li...

TL;DR本研究探讨多模态融合的问题，提出一种基于 Transformer 的新型文本 - 图像融合模型 MuSE，并通过 CrossTransformer 在多模态之间交换知识。在 Multimodal Named Entity Recognition 和 Multimodal Sentiment Analysis 任务中，MuSE 显示出更优越的性能。

Abstract

We study the problem of multimodal fusion in this paper. Recent exchanging-based methods have been proposed for vision-vision fusion, which aim to exchange embeddings learned from one modality to the other. Howev

multimodal fusion exchanging-based methods muse transformer crosstransformer

发现论文，激发创造

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

MoMo: 一种用于文本、图像和多模态表示的共享编码器模型

本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。

Apr, 2023

视觉 Transformer 的多模态 Token 融合

本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

一种基于图形的多模态融合编码器在神经机器翻译中的应用

本论文提出了一种新型的基于图的多模态融合编码器，用于多模态神经机器翻译（NMT）中利用不同模态语义单元之间的细粒度语义对应关系，以优化多模态表示学习，并在 Multi30K 数据集上验证了模型的卓越性能。

Jul, 2020

交叉编织多模态编码器

本文提出了一种新的多模态语音和文本输入结构，使用多头交叉注意力结合预训练语音和文本编码器，并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测，并高效地捕获声学 - 韵律和词汇信息。

Apr, 2022

元转换器：多模态学习的统一框架

通过使用冻结的编码器以及共享的令牌空间，Meta-Transformer 提出了一个框架，可以在 12 种不同的模态间进行统一学习，并处理多种任务，展现了转换器在发展统一多模态智能方面的潜力。

Jul, 2023

多模态生成预训练

本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Jul, 2023

多模态不对齐语言序列的多模态转换器

该研究介绍了一种称为 MulT 的多模态转换器，利用方向性一对一跨模态注意力在不显式对齐数据的情况下，通用地解决了模型多模态人类语言时序数据中的两个主要挑战，即内在数据非对准性和跨模态元素之间的长程依赖关系。

Jun, 2019