可解释的张量融合

May, 2024

Interpretable Tensor Fusion

Saurabh Varshneya, Antoine Ledent, Philipp Liznerski, Andriy Balinskyy, Purvanshi Mehta...

TL;DR传统机器学习方法主要用于基于单一数据类型进行预测，然而实际应用可能涉及各种类型的数据，如文本、图像和音频。我们引入了可解释的张量融合（InTense），这是一种多模态学习方法，用于训练神经网络同时学习多模态数据表示和其可解释的融合。InTense 能够分别捕捉不同数据类型的线性组合和乘法相互作用，从而解开高阶相互作用和每种模态的单独影响。InTense 通过给予模态和它们的关联以相关性得分，从而提供了可解释性。该方法在理论上有基础，并且在多个合成和真实数据集上得到了有意义的相关性得分。在六个真实世界数据集上的实验证明，InTense 在准确性和可解释性方面均优于现有的多模态可解释方法。

Abstract

Conventional machine learning methods are predominantly designed to predict outcomes based on a single data type. However, practical applications may encompass data of diverse types, such as text, images, and audio. We introduce →

machine learning multimodal learning interpretable tensor fusion fusion interpretability

发现论文，激发创造

张量融合网络用于多模态情感分析

本文介绍了一种名为 Tensor Fusion Network 的新型模型，它通过学习语音、手势等多种动态因素，实现了对在线视频中语言、手势等多种情感信息的判断，同时还优于现有的多模态和单一模态情感分析方法。

Jul, 2017

多模态低秩融合与模态特定因子的高效实现

本文介绍了一种使用低秩张量完成多模态数据融合的新方法，并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。

May, 2018

视觉 Transformer 的多模态 Token 融合

本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

TFusion：基于 Transformer 的 N 到 One 多模态融合块

本文提出了一种基于 transformer 的多模态融合块 TFusion，采用 tokens 和 transformer layers 自动学习融合可用多模态，引入 modal attention 机制减少依赖于特定模态，可用于多模态人体活动识别和脑肿瘤分割任务，并取得了更好的性能表现。

Aug, 2022

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为 MultiFusion 的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion 可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

多模态表示学习中早期融合的好处

该篇论文通过创建卷积 LSTM 网络结构，研究了多模态表示学习中视听融合的早期处理，结果表明，在初始 C-LSTM 层中立即融合音频和视觉输入可以提高网络的性能，使其更能够抵抗白噪声的干扰。

Nov, 2020

基于文本为主的分层高阶融合的多视角多模态交互情感分析

该研究提出了一种基于多模态信息的情感分析框架 ——InterMulti，并利用一种新颖的基于文本的 THHF 模块，将多种交互表现形式融合成综合的多模态交互表示来识别情感，实验结果表明，该方法的表现优于现有技术。

Dec, 2022

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021