多模态数据自适应融合技术

ACLNov, 2019

Adaptive Fusion Techniques for Multimodal Data

Gaurav Sahu, Olga Vechtomova

TL;DR本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Abstract

Effective fusion of data from multiple modalities, such as video, speech, and text, is challenging due to the heterogeneous nature of multimodal data. In this paper, we propose adaptive fusion techniques that aim

multimodal data adaptive fusion techniques auto-fusion gan-fusion context modeling

发现论文，激发创造

基于层次融合和上下文建模的多模态情感分析

本论文提出了一种新的特征融合策略并应用在情感分析中，该策略通过分层融合两种模态，然后再将其与第三种模态融合，在个别话语的情感分析和视频剪辑的情感分析中均取得了优异的效果。

Jun, 2018

低质量数据的多模态融合：全面调查

基于低质量数据的多模态融合面临四个主要挑战：噪声多模态数据，不完整多模态数据，不平衡多模态数据和质量变化多模态数据。本文通过全面的分类对多模态融合的常见挑战和最新进展进行调研，为研究人员提供了了解该领域现状和发现潜在研究方向的方法。此外，本文还讨论了该领域的开放问题以及有趣的未来研究方向。

Apr, 2024

深度学习多模态数据融合中对抗样本的脆弱性研究

探究了目前多模态融合模型是否利用补充信息来防御对抗攻击，通过在 MFNet 上应用 FGSM 和 PGD 等对抗攻击进行实验验证，发现多模态融合模型在对抗攻击方面仍然存在脆弱性。

May, 2020

基于上下文的多模态融合

通过上下文模态融合（CBMF）模型，结合了模态融合和数据分布对齐的方法，解决了多模态任务中数据分布不一致的问题，并且提供了一种经济高效的解决方案。

Mar, 2024

重新思考弱监督的音频 - 视觉视频解析中的跨模态融合

通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法，本研究提出了一种新的弱监督音频 - 视觉视频解析框架，以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明，我们的框架相比现有的最先进方法，表现更加优越。

Nov, 2023

动态多模态融合

本文提出了一种动态多模态融合的方法，可以在预测过程中根据数据的不同需求自适应地融合多模态数据，从而有效地减少计算成本，并在多个多模态任务上获得了良好的效果，这为动态多模态网络设计开辟了一条新的方向。

Mar, 2022

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

基于深度学习的多模态医学图像分类信息融合技术综述

多模医学成像在临床诊断和研究中起着关键作用，深度学习多模态融合技术在提高医学图像分类方面显示出强大的工具。本综述对基于深度学习的医学分类任务中的多模态融合的发展进行了彻底分析，包括不同融合方案和网络架构的性能评估，讨论了相关挑战和未来研究方向。

Apr, 2024

通过动态融合方法学习多模态词表示

本研究提出了三种新颖的动态融合方法，旨在根据不同类型的词动态地融合来自不同模式的语义表示，并在单模型和多模型情况下取得了优于现有方法的成果。

Jan, 2018

在单个 GPU 上的数据有效多模态融合

FuseMix 是一种多模态增强方案，在任意预训练的单模态编码器的潜空间上操作，通过使用 FuseMix 进行多模态对齐，我们以远低于 CLIP 的计算和数据成本，在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。

Dec, 2023