视觉 Transformer 的多模态 Token 融合

CVPRApr, 2022

视觉 Transformer 的多模态 Token 融合

Multimodal Token Fusion for Vision Transformers

Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun...

TL;DR本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Abstract

Many adaptations of transformers have emerged to address the single-modal vision tasks, where self-attention modules are stacked to handle input sources like images. Intuitively, feeding multiple modalities of data to vision transformers could improve the performance, yet the inner-modal attentive weights may also be diluted, which could thus undermine the f

multimodal token fusion transformer-based vision tasks inter-modal alignments homogeneous and heterogeneous modalities state-of-the-art methods

发现论文，激发创造

GeminiFusion: 高效按像素多模态融合的视觉 Transformer

跨模态变换器已经在不同的视觉任务中展示了优越性能，本文提出了一种像素级融合方法 GeminiFusion，它通过融合模态内部关注和模态间关注，动态地整合跨模态的互补信息，同时通过层自适应噪声实现了协调的融合过程，该方法在多模态图像转换、三维物体检测和任意模态的语义分割任务中表现出优秀的性能。

Jun, 2024

TFusion：基于 Transformer 的 N 到 One 多模态融合块

本文提出了一种基于 transformer 的多模态融合块 TFusion，采用 tokens 和 transformer layers 自动学习融合可用多模态，引入 modal attention 机制减少依赖于特定模态，可用于多模态人体活动识别和脑肿瘤分割任务，并取得了更好的性能表现。

Aug, 2022

多模态融合中的注意力瓶颈

本篇论文介绍了一种基于 transformer 的新颖架构，使用多层的融合瓶颈来进行多模态融合，实现了在多个音视频分类基准测试上的最新的结果，同时降低了计算成本。

Jun, 2021

遥感数据融合的不完全多模态学习

本文提出了一种新颖的不完整多模态学习模型，结合双向 LSTM 注意力和掩蔽自注意机制来收集多模态信号，利用重构和对比损失来促进预训练中的融合，能在处理数据不完整输入时达到当前最佳性能水平。

Apr, 2023

MaskFuser: 联合多模态符号化的遮罩融合用于端到端自动驾驶

提出了一种名为 MaskFuser 的多模态驾驶框架，在统一的语义特征空间中将各种模态标记化，并为进一步行为克隆提供联合表示。通过引入跨模态的掩蔽自编码器训练，增强了融合表示。MaskFuser 在伤害感知输入下提高了驾驶稳定性，并在驾驶得分方面表现优于以往的基线模型。

May, 2024

TransFusionOdom: 基于 Transformer 的 LiDAR - 惯导融合里程估计

本研究中，我们提出了一个基于 Transformer 的 LiDAR-Inertial 融合（即 TransFusionOdom）的端到端受监督的 odom 估计框架，用于解决传感器融合中的挑战性问题。我们提出的多注意力融合模块可展示多种同构和异构融合策略，以解决盲目增加模型复杂性带来的过拟合问题，而且使用了一种通用的可视化方法来说明基于 Transformer 的多模态交互学习过程。我们公开了一个综合多模态数据集以验证传感器融合贡献的通用性，并在 KITTI 数据集上进行了定量和定性 odom 评估，结果表明与其他相关工作相比，我们提出的 TransFusionOdom 具有更好的性能。

Apr, 2023

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

张量融合网络用于多模态情感分析

本文介绍了一种名为 Tensor Fusion Network 的新型模型，它通过学习语音、手势等多种动态因素，实现了对在线视频中语言、手势等多种情感信息的判断，同时还优于现有的多模态和单一模态情感分析方法。

Jul, 2017

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023