HighMMT: 量化多模态和交互异质性实现高维表示学习

Mar, 2022

HighMMT: 量化多模态和交互异质性实现高维表示学习

HighMMT: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

Paul Pu Liang, Yiwei Lyu, Xiang Fan, Jeffrey Tsaw, Yudong Liu...

TL;DR本文提出了两种信息理论的度量方法，用于量化多模态学习中异构性，并提出了一种可扩展到多个领域的高模态模型 HighMMT，其性能优于以前的方法，并表现出重要的缩放行为。

Abstract

Many real-world problems are inherently multimodal, from the communicative modalities humans use to express social and emotional states to the force, proprioception, and visual sensors ubiquitous on robots. While there has been an explosion of interest in multimodal representation learning

multimodal representation learning heterogeneity quantification information-theoretic metrics highmmt scaling behavior

发现论文，激发创造

多模态融合交互：人工智能量化的研究

研究了如何通过人工注释对多模态交互进行分类，提出了信息分解方法，比较了部分标签和反事实标签的机会和限制，并提出了一种自动转换方法以量化多模态数据集中的交互

Jun, 2023

探索多模式自为视角数据集中的缺失模态

本研究通过引入 Missing Modality Token（MMT）的新概念，综合分析了缺失模态对自我中心动作识别的影响，并证明了 MMT 方法在处理缺失模态时的优越性。

Jan, 2024

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

基于文本为主的分层高阶融合的多视角多模态交互情感分析

该研究提出了一种基于多模态信息的情感分析框架 ——InterMulti，并利用一种新颖的基于文本的 THHF 模块，将多种交互表现形式融合成综合的多模态交互表示来识别情感，实验结果表明，该方法的表现优于现有技术。

Dec, 2022

学习未见过的模态交互

本文针对多模态学习的完备性假设提出挑战，提出一种基于特征投影模块的解决方案，在推理过程中实现对看不见模态的泛化。同时使用伪监督来指示模态的预测可靠性。实验结果表明，该方法对于各种任务和模态具有很好的效果。

Jun, 2023

多模态机器学习中的模态影响

本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响，并针对不同分类任务的数据集和模型，提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于理解多模态学习中每个模态的作用，并为该领域的未来发展提供了有价值的见解。

Jun, 2023

无标注多模态数据下的多模态学习：保证和应用

本研究通过信息论方法对半监督学习中多模态交互的量化和分析，提出自下界和自上界的措施，并探讨了两个半监督多模态应用

Jun, 2023

多模态视觉融合的解读

通过提供一个分析框架和新的度量标准，我们研究了多模态视觉社区的解释。通过实验，我们调查了不同模态之间的一致性和特殊性，模态内的演化规则，以及优化多模态模型时使用的协作逻辑，并揭示了一些重要发现，这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性，从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。

Aug, 2023

从信息论的角度增强多模态神经机器翻译的视觉意识

本文旨在从信息论角度提高多模式机器翻译的视觉感知能力，通过将信息量化为源特定信息和目标特定信息，并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明，我们的方法可以显著提高 MMT 模型的视觉感知能力，并在两个数据集上取得了优秀的结果。

Oct, 2022