Nov, 2023

eMotions:一份用于短视频情绪识别的大规模数据集

TL;DR现今,短视频对于信息获取和分享至关重要。鉴于短视频情感数据的缺乏,我们介绍了一个大规模的数据集,名为 eMotions,包含 27996 个视频。我们通过优化人员分配和多阶段注释来减轻主观因素对标签质量的影响。另外,我们通过有针对性的数据采样提供了类别平衡和面向测试的变体。我们提出了一种端到端的基线方法 AV-CPNet,采用视频 Transformer 来更好地学习语义相关表示。我们进一步设计了两阶段的跨模态融合模块,来补充地建模音视频特征之间的相关性。然后,我们应用了包含三种情感极性的 EP-CE 损失来指导模型优化。对于九个数据集的广泛实验结果验证了 AV-CPNet 的有效性。数据集和代码将在此 https URL 开放。