- 维度情感识别中基于一致性的音视频融合交叉注意力
通过跨模态注意力来利用互补关系在多模态情感识别中引起了广泛关注。然而,模态之间也可能存在弱互补关系,可能会导致跨模态特征表示质量较差。为了解决这个问题,我们提出了一种基于不一致性感知的跨模态注意力方法(IACA),可以根据声音和视觉模态之间 - 从图谱谱域的角度重新审视对话中的多模态情感识别
通过图谱视角,本文提出了基于图谱的多模态一致性和互补协同学习框架 GS-MCC,通过使用滑动窗口构建多模态交互图、利用高频和低频信息提取方法来反映长程一致性和互补性信息,并通过对比学习构建自监督信号,以提高高频和低频信息对实际情感的反映能力 - MER 2024:半监督学习、噪声鲁棒性和开放词汇多模态情感识别
多模态情感识别是人工智能中的重要研究课题,为推动该领域的发展,我们计划组织一系列关于情感识别的挑战活动,其中包括扩大数据集规模、引入新的跟踪领域和鼓励参与者描述角色的情感状态。
- 动态多模式及视角选择用于缺失模态的多模式情感识别
这项研究的重点是评估两种策略在缺少一个感知模态的情况下的表现和韧性:一种新颖的多模式动态模态和视角选择方法以及一种交叉注意机制。RECOLA 数据集上的结果表明动态选择方法是一种有前景的多模态情感识别方法。在缺失模态的场景下,所有基于动态选 - CVPRMMA-DFER: 适应多模态单模型的野外动态面部表情识别
探讨使用自我监督学习方法进行多模态动态面部表情识别的研究,并提出了解决该任务中的主要挑战以及相应解决方案,最终在 DFEW 和 MFAW 两个常用的动态面部表情识别基准数据集上实现了超过当前最先进方法的改进。
- 通过融合 MOOC 学习场景中的视频语义进行多模态情感识别
探索视频语义信息对学习者情绪的影响,本文提出一种融合视频语义信息和生理信号的多模态情绪识别方法,实现了情绪识别性能的显著提升,为 MOOC 学习情景的情绪识别研究提供了新的视角和高效的方法。
- UniMEEC:面向统一的多模态情绪识别和情绪因果推理
通过提出一种统一多模态情绪识别和情绪 - 原因分析框架 (UniMEEC),将多模态情绪识别和情绪 - 原因对提取作为两个掩模预测问题,以增强情绪和情绪原因之间的交互,并在任务间共享提示学习,通过任务特定的层次化上下文聚合控制信息流向任务, - 使用预训练转换器进行文本、语音和视频的多模态情绪识别
通过使用多模态感情识别方法和各种融合技术,本研究在 IEMOCAP 多模态数据集上实现了 75.42% 的准确率,主要关注多模态感情识别、自监督学习、迁移学习和 Transformer 模型。
- 基于图对比学习的双阶段多模态情感识别模型
我们提出了一种基于图形对比学习的两阶段情感识别模型(TS-GCL),通过将多模态数据与其他结构引入图形对比学习(GCL)策略,来学习模态内部和模态之间的相似性和差异性,并且通过两次使用 MLP 来实现最终的情感分类,实验证明,TS-GCL - 基于多模态协作变压器和混合特征重建的强鲁棒情感识别
多模情感识别是情感计算的重要方面,本文提出了一种统一框架 Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR) 来解决构建不对齐多模特 - 对话中多模式情感识别的深度不平衡学习
通过设计多模态生成对抗网络、深度联合变分自编码器和多任务图神经网络等方法,提出了一种处理情感识别中数据不平衡的模型,取得了跨模态情感识别的一定性能改进,尤其在恐惧和厌恶情绪标签的准确性和 F1 值上提高了 10%到 20%。
- 喜悦:多模态情感识别的联合模态融合和图对比学习
通过多模态情感识别,我们提出了一种融合多模态、图对比学习的方法(Joyful),实现全局情境特征与单一模态特征的深度交互与融合,并在三个基准数据集上实验,显示 Joyful 具有最先进的性能。
- 超复模态脑电和周边生理信号的情绪识别
通过在超复数域中进行操作,该论文提出了一个带有新型融合模块的超复数多模态网络,实现了从生理信号中的分类情感识别,超越了多模态最先进的网络。
- 学习适应实际不完整数据情景下的噪声鲁棒性联合表示的多模态情感识别
通过引入噪声和可变自动编码器(Variational AutoEncoder)结构,提出了一种新的噪声鲁棒多模情感识别模型(NMER model),能够有效地从包含噪声的不完整数据中学习到鲁棒的多模态联合表示,实验证明 NMER 在 IEM - 利用标签信息进行多模态情感识别
通过利用标签信息进行多模态情绪识别,我们提出了一种新的方法,通过标签 - 令牌和标签 - 帧交互来学习每个话语的标签增强文本 / 语音表示,并设计了一种新的标签引导的注意融合模块,以融合具有标签意识的文本和语音表示进行情绪分类,实验证明该方 - EMERSK -- 基于情境认知的可解释多模情感识别
本文介绍了一种基于视觉信息的情感识别和解释系统,该系统采用多模式方法,使用卷积神经网络和注意机制从面部图像中提取深度特征,利用背景深度特征作为情境信息,融合多种信息以实现更准确的情感识别,同时结合景区类型和描述来生成情感解释。该方法在多项基 - 情感回归和分类任务中处理单一和多模态的多功能视听学习
提出了用于处理单模式和多模式情感情况的多功能音视频学习框架,通过音视频共享层,残差连接和单模态重构任务实现有效的表示学习,在情感属性预测任务上达到了新的最先进性能。
- 噪声抑制多模态 Transformer 情感识别
本文介绍了一种应对多模态情感识别中噪声信息干扰的方法,提出了噪声抗性多模态 Transformers 模型,该模型引入了噪声抗性特征提取器 (NRGF) 和噪声感知学习算法。实验结果表明,该方法在多个基准数据集上比已有方法表现更优秀,具有更 - MER 2023: 多标签学习,模态鲁棒性和半监督学习
该研究使用多模态特征测试了三个情感识别子挑战任务,提供了具有竞争力的基础模型,为提高情感识别的鲁棒性和发展实际应用技术提供了一些新思路。
- CVPR情感识别的解耦多模态蒸馏
本文提出了一种去耦合的多模态蒸馏(DMD)方法,通过使用图蒸馏单元(GD-Unit)和构建动态图来实现灵活和自适应的多模态知识蒸馏,以提高每种模态的辨别特征。实验结果表明,DMD 方法优于最先进的 MER 方法,并且在 DMD 中的图边展现