本论文提出了一种新的特征融合策略并应用在情感分析中,该策略通过分层融合两种模态,然后再将其与第三种模态融合,在个别话语的情感分析和视频剪辑的情感分析中均取得了优异的效果。
Jun, 2018
基于低质量数据的多模态融合面临四个主要挑战:噪声多模态数据,不完整多模态数据,不平衡多模态数据和质量变化多模态数据。本文通过全面的分类对多模态融合的常见挑战和最新进展进行调研,为研究人员提供了了解该领域现状和发现潜在研究方向的方法。此外,本文还讨论了该领域的开放问题以及有趣的未来研究方向。
Apr, 2024
探究了目前多模态融合模型是否利用补充信息来防御对抗攻击,通过在 MFNet 上应用 FGSM 和 PGD 等对抗攻击进行实验验证,发现多模态融合模型在对抗攻击方面仍然存在脆弱性。
May, 2020
通过上下文模态融合(CBMF)模型,结合了模态融合和数据分布对齐的方法,解决了多模态任务中数据分布不一致的问题,并且提供了一种经济高效的解决方案。
Mar, 2024
通过引入混合注意力网络、信使引导中融合变换以及跨音频预测一致性等方法,本研究提出了一种新的弱监督音频 - 视觉视频解析框架,以解决多模态融合中的问题并改进单模态事件检测的性能。实验表明,我们的框架相比现有的最先进方法,表现更加优越。
Nov, 2023
本文提出了一种动态多模态融合的方法,可以在预测过程中根据数据的不同需求自适应地融合多模态数据,从而有效地减少计算成本,并在多个多模态任务上获得了良好的效果,这为动态多模态网络设计开辟了一条新的方向。
Mar, 2022
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。
Dec, 2021
多模医学成像在临床诊断和研究中起着关键作用,深度学习多模态融合技术在提高医学图像分类方面显示出强大的工具。本综述对基于深度学习的医学分类任务中的多模态融合的发展进行了彻底分析,包括不同融合方案和网络架构的性能评估,讨论了相关挑战和未来研究方向。
本研究提出了三种新颖的动态融合方法,旨在根据不同类型的词动态地融合来自不同模式的语义表示,并在单模型和多模型情况下取得了优于现有方法的成果。
Jan, 2018
FuseMix 是一种多模态增强方案,在任意预训练的单模态编码器的潜空间上操作,通过使用 FuseMix 进行多模态对齐,我们以远低于 CLIP 的计算和数据成本,在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。
Dec, 2023