基于时空序列和关系学习的情感 - 激活估计的多模态融合方法
本文提出一种视听空间时域深度神经网络,其中包括预训练的二维 - CNN 和几个平行 TCNs,同时利用视听信息,通过跨验证来充分利用数据和缓解过度拟合,并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中,本文的方法在 valence 和 arousal 方面通过了 CCC 测试,相较于其他方法有明显的准确度提升。
Jul, 2021
本研究介绍了一种基于多模态特征和 Transformer 的统一框架,用于情感行为分析和表情识别任务,同时运用数据平衡和增强方法进一步提高模型性能。实验证明,该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。
Mar, 2022
本文介绍了一个基于多模态的情感估计框架,通过提取比赛数据集中的不同长度的视频的多模态特征,包括音频、姿态和图像,确定情感趋势。该系统在验证数据集中达到 0.361 的性能。
Mar, 2023
通过调查音频和视觉深度学习方法,为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络(CNN)和公共维度情绪模型(PDEM)进行视频和音频模态的比较,并使用这些多阶段训练的模态特定的深度神经网络(DNN)的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下,对 AffWild2 数据集进行了结果报告。
Mar, 2024
本文介绍了一种利用多模态融合和预训练模型特征相结合的方法,用于处理表情识别和情绪评估任务,通过对预训练模型提取特征并进行预处理、插值或卷积等操作,并应用不同模型进行多模态融合,达到在多模态任务中出色性能的目的。
Mar, 2024
本文通过使用卷积神经网络改进面部描述符,并探索多种融合方法,建立并优化 CNN 架构,解决情感分类问题,获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性,达到了 58.8%。
Sep, 2017
本文介绍我们在第四届野外情感行为分析竞赛中提交的方法,将提供的面部和面部周围背景的完整信息用于多任务学习挑战,使用 InceptionNet V3 模型提取深度特征,从而得出对情绪的分类和评估
Jul, 2022
通过使用 Vision Transformer 和 Transformer 模型,该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测,提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解,并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用,增强了情绪和行为分析在实际场景中的准确性和适用性,预计对情感计算和深度学习方法的发展有所助益。
Mar, 2024
本文提出了简单而有效的基于融合的方法,首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL),在多个融合方案、模态组合和 TAL 架构的消融试验中,我们通过大规模基准数据集(ActivityNet-1.3 和 THUMOS14)实验性地表明,我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能,特别地在指标度量上([email protected])达到新的最优水平。
Jun, 2021