本文介绍了我们在 One-Minute-Gradual 情感挑战中,通过提取从视频中用多种声学,视频和文本模型提取的多模态表示,并使用支持向量机(SVM)融合多模态信号进行最终权值预测,实现了 CCC 得分 0.397 和 0.520。这超过了最佳 CCC 得分 0.15 和 0.23 的基线系统。
May, 2018
通过调查音频和视觉深度学习方法,为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络(CNN)和公共维度情绪模型(PDEM)进行视频和音频模态的比较,并使用这些多阶段训练的模态特定的深度神经网络(DNN)的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下,对 AffWild2 数据集进行了结果报告。
Mar, 2024
本文介绍我们在第四届野外情感行为分析竞赛中提交的方法,将提供的面部和面部周围背景的完整信息用于多任务学习挑战,使用 InceptionNet V3 模型提取深度特征,从而得出对情绪的分类和评估
Jul, 2022
本研究使用深度学习技术,以多模态方式,使用面部检测、音频流等模态,探索影片情感识别模型,成果在 2013 年的 EmotiW 挑战中成为获胜者,并在 2014 年的数据集上实现了约 47.67% 的准确率。
Mar, 2015
本论文介绍了利用预训练的深度模型在静态照片上提取可靠情感特征的可能性,并通过多任务场景中的轻量级模型来识别面部表情、价值和唤起。实验结果表明,与现有的非集成技术相比,我们的方法显著提高了验证集上的质量指标。
本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务,复现传统特征工程方法的基础上提出了一种基于深度学习的新模型,证明了新方法相较于传统模型更擅长于唤起用户的注意,而在情感预测上两种方法表现相当。此外,我们还比较了不同的融合方法,在同时优化各单模态模型时取得了较大的提升,并向公众发布部分数据以供参考。
Sep, 2018
该研究提出了一种利用多任务流网络和先进面部表情嵌入的方法,在面对不同的情感表示时,有效地进行情感自动识别。
Jul, 2021
本文研究使用深度神经网络模型准确预测电影观众观看电影时所体验到的人类情感,其中包括来自 RGB 视频帧的视觉提示,涵盖声音、语音和音乐的听觉组件,以及包含演员对话的语言元素。
Jun, 2023
该研究提出了一种轻量级和准确的深度神经模型,通过迁移学习、降维和简单的帧选择机制实现音视频情感识别,取得了情感识别领域 State-of-the-art 的准确率。
Aug, 2018
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。