HighMMT: 量化多模态和交互异质性实现高维表示学习
研究了如何通过人工注释对多模态交互进行分类,提出了信息分解方法,比较了部分标签和反事实标签的机会和限制,并提出了一种自动转换方法以量化多模态数据集中的交互
Jun, 2023
本研究通过引入 Missing Modality Token(MMT)的新概念,综合分析了缺失模态对自我中心动作识别的影响,并证明了 MMT 方法在处理缺失模态时的优越性。
Jan, 2024
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。
Apr, 2023
该研究提出了一种基于多模态信息的情感分析框架 ——InterMulti,并利用一种新颖的基于文本的 THHF 模块,将多种交互表现形式融合成综合的多模态交互表示来识别情感,实验结果表明,该方法的表现优于现有技术。
Dec, 2022
本文针对多模态学习的完备性假设提出挑战,提出一种基于特征投影模块的解决方案,在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明,该方法对于各种任务和模态具有很好的效果。
Jun, 2023
本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响,并针对不同分类任务的数据集和模型,提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于理解多模态学习中每个模态的作用,并为该领域的未来发展提供了有价值的见解。
Jun, 2023
通过提供一个分析框架和新的度量标准,我们研究了多模态视觉社区的解释。通过实验,我们调查了不同模态之间的一致性和特殊性,模态内的演化规则,以及优化多模态模型时使用的协作逻辑,并揭示了一些重要发现,这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性,从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。
Aug, 2023
本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022