高效双层特征恢复多模态 Transformer 用于鲁棒性多模态情感分析
多模情感识别是情感计算的重要方面,本文提出了一种统一框架 Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR) 来解决构建不对齐多模特征的联合表示的效率和随机模态特征缺失引起的性能下降的挑战,并在两个广泛应用的基准数据集上获得了优于先进基准模型的结果。
Dec, 2023
本研究提出了一个利用基于多模态双重注意力变换器模型,结合图注意力与协同注意力,以提高跨语言情感识别性能,在 4 个公开数据集中获得了优秀表现的方法。该方法在高层次特征表示方面利用 Transformer 编码层来提高情感分类精度,并通过在各个阶段对特征表示进行细化以提供情感显著特征,既保留特定模态的情感信息又增强了跨模态和跨语言交互。
Jun, 2023
探讨使用自我监督学习方法进行多模态动态面部表情识别的研究,并提出了解决该任务中的主要挑战以及相应解决方案,最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。
Apr, 2024
通过利用多个信息源(如语言、视频和音频),多模态情感分析(MSA)证明了其有效性,但不同模态间可能存在情感不相关和冲突的信息,从而限制了进一步提高性能。为了缓解这个问题,我们提出了自适应语言引导的多模态 Transformer(ALMT),它通过自适应的超模态学习(AHL)模块,在不同尺度上利用语言特征的指导从视觉和音频特征中学习抑制不相关和冲突的表示。通过获取超模态表示,该模型可以通过多模态融合获得互补和联合表示,以实现有效的 MSA。在实践中,ALMT 在几个知名数据集(如 MOSI,MOSEI 和 CH-SIMS)上实现了最先进的性能,并通过大量割舍实验证明了我们的抑制不相关和冲突的机制的有效性和必要性。
Oct, 2023
本文提出一种新的多层次转换器模型,将细粒度表示和预训练的话语级别表示相结合,结合不同的方法将音素级别嵌入与单词级别嵌入相结合,从而进行细粒度的多模式情感识别,最终在 IEMOCAP 数据集上,我们的模型均优于之前的最优方法。
Oct, 2022
提出了一种简单而有效的框架 TRML,即利用多模态基础模型进行鲁棒多模态学习,通过生成虚拟模态替代丢失模态,并对生成和丢失模态之间的语义空间进行对齐,从而捕捉缺失模态的语义。在完整模态的情况下,我们的模型通过利用交叉模态语义空间的对齐来捕捉丢失模态的语义。实验证明我们的方法在三个多模态情感分析基准数据集 CMU-MOSI、CMU-MOSEI 和 MELD 上具有优势。
Jan, 2024
在对话情景下,针对 MM-ERC(对话中的多模态情感分析)的任务,本研究通过多模态特征解缠和融合,同时模型特征的多模态性和对话背景的建模,以推动任务表现,提出了一种双层解缠机制和特征融合机制,成功地在两个公共数据集上实现了最新的最优性能,并通过进一步的分析证明了这些机制对提升 MM-ERC 任务的帮助,并具有促进其他多模态对话任务的潜力。
Aug, 2023
本文提出了一种多模态端到端变形器(ME2ET)模型,通过引入渐进的三模态注意力和三模态特征融合层,成功地模拟了文本、声音和视觉模态之间低层和高层的交互,并在 CMU-MOSEI 和 IEMOCAP 数据集上取得了最先进的性能。
Sep, 2022
该论文提出了一种基于音频和文本的多模态情感分析方法,使用多特征融合和多模态融合策略进行深层特征融合,通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。
Apr, 2019