Mar, 2023

视频中多模态特征提取和基于注意力的融合情绪估计

TL;DR本文介绍了一个基于多模态的情感估计框架,通过提取比赛数据集中的不同长度的视频的多模态特征,包括音频、姿态和图像,确定情感趋势。该系统在验证数据集中达到 0.361 的性能。