利用数据增强提高情绪价值和唤起度预测中的个性化
我们在 MuSe-Personalisation 子挑战赛中提出了一种解决方案,通过使用多模态情感分析来预测参与者的情绪和趣味连续值,并通过提取多样特征的方法建立了稳健的特征表达和模型集成,最终在此挑战中获得第三名的成绩。
Aug, 2023
本文对情感识别中的流行深度学习方法进行了全面评估,发现语音信号中的长距离依赖对情感识别至关重要,而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。
Nov, 2022
本文提出了一种新的方法,用于合成面部情感,接受中性 2D 人脸图像、基本面部表情或 VA 头像建议,以及 2D VA 空间中的路径作为输入,采用 3D 可变模型,对中性人脸图像进行形变和添加颜色,使生成的面孔带有特定情感,用于数据增强和深度神经网络的联调。
Nov, 2018
我们的研究团队 HFUT-VUT 在 ACM Multimedia 2023 的 MultiMediate Grand Challenge 2023 中的解决方案覆盖了三个子挑战:身体行为识别,眼神接触检测和下一个发言者的预测。我们选择 Swin Transformer 作为基线,并利用数据增广策略来解决上述三个任务。具体来说,我们裁剪原始视频以去除其他部分的噪声。同时,我们利用数据增广来提高模型的泛化能力。结果,我们的解决方案在平均精度均值方面对身体行为识别取得了最佳结果 0.6262,并在相应的测试集上的眼神接触检测精确度方面获得了 0.7771 的准确率。此外,我们的方法在下一个发言者的预测方面也实现了 0.5281 的不加权平均召回率的可比较结果。
Aug, 2023
本研究提出了一种无监督方法来解决情感识别中需要将模型调整到特定个体言语样本上以改进情感预测的问题,并表明这种方法可以相对有效地个性化预测模型。
Jan, 2022
通过使用数据增强技术和生成对抗网络模型,将初步训练的卷积神经网络与不同架构的预训练模型的方法应用于面部表情识别任务,使得模型的泛化能力得到提高,从而实现对面部表情的自动识别,准确率达到 85%。
Feb, 2024
利用 Multi-Task Contrastive Learning for Affect Representation(MT-CLAR)结合深度学习技术,通过对表情图片的对比学习来推断表情表达的相似性,以及两个面部表情在情感价值和唤起水平上的差异,并扩展该框架用于自动化视频标注。
Aug, 2023
本论文介绍了利用预训练的深度模型在静态照片上提取可靠情感特征的可能性,并通过多任务场景中的轻量级模型来识别面部表情、价值和唤起。实验结果表明,与现有的非集成技术相比,我们的方法显著提高了验证集上的质量指标。
Mar, 2024
通过使用 Vision Transformer 和 Transformer 模型,该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测,提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解,并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用,增强了情绪和行为分析在实际场景中的准确性和适用性,预计对情感计算和深度学习方法的发展有所助益。
Mar, 2024