SUN 团队在 ABAW 2024 竞赛中的贡献：音频视觉的情感倾向与表达识别

Mar, 2024

SUN 团队在 ABAW 2024 竞赛中的贡献：音频视觉的情感倾向与表达识别

SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition

Denis Dresvyanskiy, Maxim Markitantov, Jiawei Yu, Peitong Li, Heysem Kaya...

TL;DR通过调查音频和视觉深度学习方法，为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络（CNN）和公共维度情绪模型（PDEM）进行视频和音频模态的比较，并使用这些多阶段训练的模态特定的深度神经网络（DNN）的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下，对 AffWild2 数据集进行了结果报告。

Abstract

As emotions play a central role in human communication, automatic emotion recognition has attracted increasing attention in the last two decades. While multimodal systems enjoy high performances on lab-controlled data, they are still far from providing ecological validity on non-lab-controlled, namely 'in-the-wild' data. This work investigates →

automatic emotion recognition audiovisual deep learning convolutional neural networks public dimensional emotion model in-the-wild data

发现论文，激发创造

第六届 ABAW 比赛中的 HSEmotion 团队：面部表情、情绪价值 - 唤醒度和情绪强度预测

本论文介绍了利用预训练的深度模型在静态照片上提取可靠情感特征的可能性，并通过多任务场景中的轻量级模型来识别面部表情、价值和唤起。实验结果表明，与现有的非集成技术相比，我们的方法显著提高了验证集上的质量指标。

Mar, 2024

第二届 ABAW2 比赛中用于多任务情感识别的先前辅助流网络

该研究提出了一种利用多任务流网络和先进面部表情嵌入的方法，在面对不同的情感表示时，有效地进行情感自动识别。

Jul, 2021

一种多模态和多任务学习方法，用于动作单元和表情识别

本文提出一种利用视觉和音频信息的多模态和多任务学习方法来分析人类情感，使用 AU 和表情标注训练模型并应用序列模型提取视频帧之间的关联，实现了 0.712 的 AU 分数和 0.477 的表情分数，证明了该方法在提高模型性能方面的有效性。

Jul, 2021

野外双流感性音视频分析

本文介绍了我们提交到 ABAW 2020 竞赛的两条流声音视觉分析模型来识别视频中的情感行为。该模型分别处理音频和图像流，并使用卷积神经网络进行分析，同时使用人脸对齐期间提取的附加功能。在训练期间，利用不同情感表达之间的相关性来提高性能。通过在 Aff-Wild2 数据库上的实验，我们的模型取得了有希望的结果。

Feb, 2020

ABAW：情感价值 - 唤醒评估，表情识别，行为单位检测和情感反应强度评估挑战

本文介绍了于 CVPR 2023 会议举办的第五届 Affective Behavior Analysis in-the-wild (ABAW) Competition，其中包括四个挑战，使用了两个数据集，分别是 Aff-Wild2 database 和 Hume-Reaction dataset，这些挑战包括单任务的情感估计、表情分类、动作单位检测和情绪反应强度估计。

Mar, 2023

基于 Transformer 的多模态信息融合用于面部表情分析

本研究介绍了一种基于多模态特征和 Transformer 的统一框架，用于情感行为分析和表情识别任务，同时运用数据平衡和增强方法进一步提高模型性能。实验证明，该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。

Mar, 2022

ABAW: 情感价值评估、表情识别、动作单元检测和多任务学习挑战

本文介绍了第三届 ABAW 竞赛，该竞赛以自动情感分析为目标，并包括四个挑战：单任务价值 - 唤醒估计、单任务表情分类、单任务动作单元检测和多任务学习。在此基础上，我们概述了竞赛数据集、评估指标及基准系统。

Feb, 2022

基于迟到模态融合和基于规则决策的音视化复合表达识别方法

该论文提出了一种用于复合表情识别的新型视听方法，该方法基于融合情感概率的情感识别模型，并利用预定义规则进行复合表情的预测，结果表明该方法可作为开发标注音频 - 视觉数据中人类基本和复合情绪的智能工具的基础。

Mar, 2024

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

通过视频和音频的预处理，提取视觉和音频特征，并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力，融合预训练的音频和视频模型进行特征提取，实现了较好的 VA 评估性能（简化中文摘要）。

Mar, 2024

视频中多模态特征提取和基于注意力的融合情绪估计

本文介绍了一个基于多模态的情感估计框架，通过提取比赛数据集中的不同长度的视频的多模态特征，包括音频、姿态和图像，确定情感趋势。该系统在验证数据集中达到 0.361 的性能。

Mar, 2023