高效双层特征恢复多模态 Transformer 用于鲁棒性多模态情感分析

Aug, 2022

高效双层特征恢复多模态 Transformer 用于鲁棒性多模态情感分析

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis

Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao

TL;DR本文提出了一种名为 EMT-DLFR 的通用且统一的框架，以解决当前多模态数据建模过程中的两个主要挑战：一是无法进行未对齐的多模态数据中的跨模态交互，而是存在随机模态特征缺失问题，此框架令多模态交互更加高效且应对缺失数据具有更强的鲁棒性。

Abstract

With the proliferation of user-generated online videos, Multimodal Sentiment Analysis (MSA) has attracted increasing attention recently. Despite significant progress, there are still two major challenges on the way towards robust MSA: 1) inefficiency when modeling cross-modal interactions

multimodal sentiment analysis emt-dlfr cross-modal interactions feature missing siamese representation

发现论文，激发创造

基于多模态协作变压器和混合特征重建的强鲁棒情感识别

多模情感识别是情感计算的重要方面，本文提出了一种统一框架 Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR) 来解决构建不对齐多模特征的联合表示的效率和随机模态特征缺失引起的性能下降的挑战，并在两个广泛应用的基准数据集上获得了优于先进基准模型的结果。

Dec, 2023

跨语言语音情感识别：使用多模态双重注意力变换器

本研究提出了一个利用基于多模态双重注意力变换器模型，结合图注意力与协同注意力，以提高跨语言情感识别性能，在 4 个公开数据集中获得了优秀表现的方法。该方法在高层次特征表示方面利用 Transformer 编码层来提高情感分类精度，并通过在各个阶段对特征表示进行细化以提供情感显著特征，既保留特定模态的情感信息又增强了跨模态和跨语言交互。

Jun, 2023

MMA-DFER: 适应多模态单模型的野外动态面部表情识别

探讨使用自我监督学习方法进行多模态动态面部表情识别的研究，并提出了解决该任务中的主要挑战以及相应解决方案，最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。

Apr, 2024

学习基于语言引导的自适应超模态表示用于多模态情感分析

通过利用多个信息源（如语言、视频和音频），多模态情感分析（MSA）证明了其有效性，但不同模态间可能存在情感不相关和冲突的信息，从而限制了进一步提高性能。为了缓解这个问题，我们提出了自适应语言引导的多模态 Transformer（ALMT），它通过自适应的超模态学习（AHL）模块，在不同尺度上利用语言特征的指导从视觉和音频特征中学习抑制不相关和冲突的表示。通过获取超模态表示，该模型可以通过多模态融合获得互补和联合表示，以实现有效的 MSA。在实践中，ALMT 在几个知名数据集（如 MOSI，MOSEI 和 CH-SIMS）上实现了最先进的性能，并通过大量割舍实验证明了我们的抑制不相关和冲突的机制的有效性和必要性。

Oct, 2023

多模态情感识别的多级 Transformer

本文提出一种新的多层次转换器模型，将细粒度表示和预训练的话语级别表示相结合，结合不同的方法将音素级别嵌入与单词级别嵌入相结合，从而进行细粒度的多模式情感识别，最终在 IEMOCAP 数据集上，我们的模型均优于之前的最优方法。

Oct, 2022

基于多模态基础模型的鲁棒多模态学习

提出了一种简单而有效的框架 TRML，即利用多模态基础模型进行鲁棒多模态学习，通过生成虚拟模态替代丢失模态，并对生成和丢失模态之间的语义空间进行对齐，从而捕捉缺失模态的语义。在完整模态的情况下，我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。

Jan, 2024

论会话多模态情感识别中模态和语境的解绑和融合

在对话情景下，针对 MM-ERC（对话中的多模态情感分析）的任务，本研究通过多模态特征解缠和融合，同时模型特征的多模态性和对话背景的建模，以推动任务表现，提出了一种双层解缠机制和特征融合机制，成功地在两个公共数据集上实现了最新的最优性能，并通过进一步的分析证明了这些机制对提升 MM-ERC 任务的帮助，并具有促进其他多模态对话任务的潜力。

Aug, 2023

无监督图注意力自编码器用于带属性网络的 K 均值丢失

利用最新的转换器和特征提取工具构建阿拉伯语多模态数据集，验证其在多模态学习中的效果，并展示阿拉伯语多模态研究的潜力。

Nov, 2023

一种高效的端到端 Transformer 网络结构，基于渐进式三模态注意力机制用于多模态情感识别

本文提出了一种多模态端到端变形器（ME2ET）模型，通过引入渐进的三模态注意力和三模态特征融合层，成功地模拟了文本、声音和视觉模态之间低层和高层的交互，并在 CMU-MOSEI 和 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2022

情感分析中的多特征和多模态补充融合

该论文提出了一种基于音频和文本的多模态情感分析方法，使用多特征融合和多模态融合策略进行深层特征融合，通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。

Apr, 2019