基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

Mar, 2024

基于时空序列和关系学习的情感 - 激活估计的多模态融合方法

Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation

Jun Yu, Gongpeng Zhao, Yongqi Wan, Zhihong Wei, Yang Zheng...

TL;DR通过视频和音频的预处理，提取视觉和音频特征，并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力，融合预训练的音频和视频模型进行特征提取，实现了较好的 VA 评估性能（简化中文摘要）。

Abstract

This paper presents our approach for the VA (Valence-Arousal) estimation task in the abaw6 competition. We devised a comprehensive model by preprocessing video frames and audio segments to extract visual and audio features. Through the utilization of →

va estimation abaw6 competition temporal convolutional network transformer encoder multimodal data fusion

发现论文，激发创造

音视频领导者 - 追随者注意力融合的连续情感识别

本文提出一种视听空间时域深度神经网络，其中包括预训练的二维 - CNN 和几个平行 TCNs，同时利用视听信息，通过跨验证来充分利用数据和缓解过度拟合，并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中，本文的方法在 valence 和 arousal 方面通过了 CCC 测试，相较于其他方法有明显的准确度提升。

Jul, 2021

基于 Transformer 的多模态信息融合用于面部表情分析

本研究介绍了一种基于多模态特征和 Transformer 的统一框架，用于情感行为分析和表情识别任务，同时运用数据平衡和增强方法进一步提高模型性能。实验证明，该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。

Mar, 2022

视频中多模态特征提取和基于注意力的融合情绪估计

本文介绍了一个基于多模态的情感估计框架，通过提取比赛数据集中的不同长度的视频的多模态特征，包括音频、姿态和图像，确定情感趋势。该系统在验证数据集中达到 0.361 的性能。

Mar, 2023

SUN 团队在 ABAW 2024 竞赛中的贡献：音频视觉的情感倾向与表达识别

通过调查音频和视觉深度学习方法，为非控制环境中的情绪识别问题提供有效的体系结构。使用基于微调的卷积神经网络（CNN）和公共维度情绪模型（PDEM）进行视频和音频模态的比较，并使用这些多阶段训练的模态特定的深度神经网络（DNN）的嵌入来比较替代的时间建模和融合策略。在 ABAW'24 挑战协议下，对 AffWild2 数据集进行了结果报告。

Mar, 2024

情感行为分析中的多模态融合与预训练模型特征研究

本文介绍了一种利用多模态融合和预训练模型特征相结合的方法，用于处理表情识别和情绪评估任务，通过对预训练模型提取特征并进行预处理、插值或卷积等操作，并应用不同模型进行多模态融合，达到在多模态任务中出色性能的目的。

Mar, 2024

ABAW4 多任务挑战的双方面信息融合模型

本研究提出了一个新颖的端到端架构，以实现不同类型信息的全面集成来解决情感行为分析中的多任务学习挑战，实验结果表明我们的方法是有效的。

Jul, 2022

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

基于多任务学习的多情感描述符合集模型

本文介绍我们在第四届野外情感行为分析竞赛中提交的方法，将提供的面部和面部周围背景的完整信息用于多任务学习挑战，使用 InceptionNet V3 模型提取深度特征，从而得出对情绪的分类和评估

Jul, 2022

使用掩码学习的 Transformer 情感识别

通过使用 Vision Transformer 和 Transformer 模型，该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测，提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解，并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用，增强了情绪和行为分析在实际场景中的准确性和适用性，预计对情感计算和深度学习方法的发展有所助益。

Mar, 2024

听我说：用混合方法增强音频时序动作定位

本文提出了简单而有效的基于融合的方法，首次同时考虑音频和视频模态用于监督式的未剪辑视频动作定位 (TAL)，在多个融合方案、模态组合和 TAL 架构的消融试验中，我们通过大规模基准数据集（ActivityNet-1.3 和 THUMOS14）实验性地表明，我们的方案在国内外领先的仅视频 TAL 方法中始终能提高性能，特别地在指标度量上（[email protected]）达到新的最优水平。

Jun, 2021