基于声音视觉线索的情感唤醒 - 价值深度预测网络

May, 2018

基于声音视觉线索的情感唤醒 - 价值深度预测网络

A Deep Network for Arousal-Valence Emotion Prediction with Acoustic-Visual Cues

Songyou Peng, Le Zhang, Yutong Ban, Meng Fang, Stefan Winkler

TL;DR本文全面描述了我们参与 2018 年一分钟逐渐情感行为挑战的方法。

Abstract

In this paper, we comprehensively describe the methodology of our submissions to the one-minute gradual-emotion behavior challenge 2018.

methodology submissions one-minute gradual-emotion behavior challenge 2018

发现论文，激发创造

一分钟逐渐情感挑战的多模态情感识别

本文介绍了我们在 One-Minute-Gradual 情感挑战中，通过提取从视频中用多种声学，视频和文本模型提取的多模态表示，并使用支持向量机（SVM）融合多模态信号进行最终权值预测，实现了 CCC 得分 0.397 和 0.520。这超过了最佳 CCC 得分 0.15 和 0.23 的基线系统。

May, 2018

SUN 团队在 ABAW 2024 竞赛中的贡献：音频视觉的情感倾向与表达识别

通过调查音频和视觉深度学习方法，为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络（CNN）和公共维度情绪模型（PDEM）进行视频和音频模态的比较，并使用这些多阶段训练的模态特定的深度神经网络（DNN）的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下，对 AffWild2 数据集进行了结果报告。

Mar, 2024

基于多任务学习的多情感描述符合集模型

本文介绍我们在第四届野外情感行为分析竞赛中提交的方法，将提供的面部和面部周围背景的完整信息用于多任务学习挑战，使用 InceptionNet V3 模型提取深度特征，从而得出对情绪的分类和评估

Jul, 2022

EmoNets: 多模深度学习方法用于视频情感识别

本研究使用深度学习技术，以多模态方式，使用面部检测、音频流等模态，探索影片情感识别模型，成果在 2013 年的 EmotiW 挑战中成为获胜者，并在 2014 年的数据集上实现了约 47.67% 的准确率。

Mar, 2015

第六届 ABAW 比赛中的 HSEmotion 团队：面部表情、情绪价值 - 唤醒度和情绪强度预测

本论文介绍了利用预训练的深度模型在静态照片上提取可靠情感特征的可能性，并通过多任务场景中的轻量级模型来识别面部表情、价值和唤起。实验结果表明，与现有的非集成技术相比，我们的方法显著提高了验证集上的质量指标。

Mar, 2024

基于深度神经网络的音频和歌词的音乐情感检测

本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务，复现传统特征工程方法的基础上提出了一种基于深度学习的新模型，证明了新方法相较于传统模型更擅长于唤起用户的注意，而在情感预测上两种方法表现相当。此外，我们还比较了不同的融合方法，在同时优化各单模态模型时取得了较大的提升，并向公众发布部分数据以供参考。

Sep, 2018

第二届 ABAW2 比赛中用于多任务情感识别的先前辅助流网络

该研究提出了一种利用多任务流网络和先进面部表情嵌入的方法，在面对不同的情感表示时，有效地进行情感自动识别。

Jul, 2021

使用深度神经网络增强电影情感体验预测：音频和语言的重要性

本文研究使用深度神经网络模型准确预测电影观众观看电影时所体验到的人类情感，其中包括来自 RGB 视频帧的视觉提示，涵盖声音、语音和音乐的听觉组件，以及包含演员对话的语言元素。

Jun, 2023

奥卡姆剃刀视角下的小训练集视听情感识别学习

该研究提出了一种轻量级和准确的深度神经模型，通过迁移学习、降维和简单的帧选择机制实现音视频情感识别，取得了情感识别领域 State-of-the-art 的准确率。

Aug, 2018

使用视觉、音频和文本特征进行多模态话语级情感分析

本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构，其优于单模态基线，并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。

May, 2018