本文提出了一种名为多模态信息最大化的框架,通过提高单模态输入对之间的相互信息和多模态融合结果与单模态输入之间的相互信息,以保留任务相关信息,在下游任务中,与主要任务(MSA)一起进行联合训练,以提高下游任务的性能。实验结果证明了我们方法的有效性。
Sep, 2021
提出了一种通过引导网络在训练阶段促进知识共享,利用多模式表示训练用于推理的更好的单模式模型,以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明,所提出的框架训练的单模式模型明显优于传统训练的模型,并且推理成本相同。
Sep, 2023
提出了一种用于多模态学习的预测动态融合(PDF)框架,通过从泛化角度揭示多模态融合,理论上推导出可预测的合作信念(Co-Belief)与单一和整体置信的关系,并进一步提出相对校准策略以校准潜在的不确定性,通过在多个基准测试上的大量实验证实了其优越性。
Jun, 2024
本研究提出了三种新颖的动态融合方法,旨在根据不同类型的词动态地融合来自不同模式的语义表示,并在单模型和多模型情况下取得了优于现有方法的成果。
Jan, 2018
通过知识从全局优势形式中转移,我们提出了一种新颖的跨模态渗透联邦学习(FedCMI)框架,有效缓解分布式条件下的模态失衡和知识异质性问题,并且在弱模态中促进局部特征开发,实现了公平的类别性能表现。
Dec, 2023
文章介绍了一种用于检测假新闻的多粒度多模态融合网络模型,并将模型性能与现有方法进行了比较。
Apr, 2023
本文提出了一种名为多维多模态交互网络(MIMIC)的框架,用于解决多模态实体链接(MEL)任务,并通过对相互作用单元和对比学习的设计,将简洁文本和隐含视觉线索的精细表示结合起来,实现了更好的性能,超过了各种最先进的基准模型。
Jul, 2023
通过提出的 I2M2 框架,我们捕捉并整合了模态间和模态内的依赖关系,从而实现了更精确的预测。在真实世界的医疗和视觉与语言数据集上,我们使用最先进的模型评估了我们的方法,并且表现出优于传统方法的性能,传统方法仅关注一种模态依赖。
May, 2024
本研究提出了一种名为 RMFN 的循环多阶段融合网络,该网络以多元信号为输入,通过多个阶段递归地融合特定的信号子集,结合了循环神经网络以建模时间和模态内交互、建模跨模态交互。经实验证明,RMFN 在情感分析、情感识别和说话人特征识别等多模态任务上可以达到最先进的性能,并通过可视化方法证明了每个融合阶段都集中于不同的多模态信号子集上。
Aug, 2018
多模态知识图谱补全的方法 AdaMF-MAT 结合结构信息、视觉信息和文本信息,通过自适应模态融合和模态对抗训练实现对不平衡模态信息的充分利用,在三个公开数据集上超过 19 个最新方法并实现了新的最佳结果。
Feb, 2024