视频中多模态特征提取和基于注意力的融合情绪估计
本研究介绍了一种基于多模态特征和 Transformer 的统一框架,用于情感行为分析和表情识别任务,同时运用数据平衡和增强方法进一步提高模型性能。实验证明,该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。
Mar, 2022
本文介绍我们在第四届野外情感行为分析竞赛中提交的方法,将提供的面部和面部周围背景的完整信息用于多任务学习挑战,使用 InceptionNet V3 模型提取深度特征,从而得出对情绪的分类和评估
Jul, 2022
本文论述了针对 ABAW2023 中的情感行为分析领域的两个子挑战 - 表情分类和情感反应强度评估的高级解决方案。该方案使用了多种模型和工具来提取多模态特征,并有效地处理分类中的挑战,从而显著提高了模型在多模态情况下的情感预测精度。在情感反应强度评估方面,我们的方法超过了基线方法 84%,并在验证数据集上取得了出色的结果。
Mar, 2023
本文提出一种利用视觉和音频信息的多模态和多任务学习方法来分析人类情感,使用 AU 和表情标注训练模型并应用序列模型提取视频帧之间的关联,实现了 0.712 的 AU 分数和 0.477 的表情分数,证明了该方法在提高模型性能方面的有效性。
Jul, 2021
本文通过使用卷积神经网络改进面部描述符,并探索多种融合方法,建立并优化 CNN 架构,解决情感分类问题,获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性,达到了 58.8%。
Sep, 2017
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
May, 2018
本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题,提出了一种基于 attention 机制和单词级融合的分层多模态体系结构,以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明,该模型在现有数据集上表现优异。
May, 2018
本文介绍了我们在 CVPR 2023:Affective Behavior Analysis in-the-wild (ABAW) 第 5 次研讨会和比赛中进行情感反应强度 (ERI) 估计挑战的方法,通过基于多模态数据提取声学和视觉特征,提高了我们的模型表现能力,并使用 Transformer 编码器进行交叉模态关注机制,从而提高了与基线的 Pearson 相关系数。
Mar, 2023
本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准,并展示了在执行此类任务时需要考虑的不同方面分析。
Jul, 2017