ICCVJul, 2021

音视频领导者 - 追随者注意力融合的连续情感识别

TL;DR本文提出一种视听空间时域深度神经网络,其中包括预训练的二维 - CNN 和几个平行 TCNs,同时利用视听信息,通过跨验证来充分利用数据和缓解过度拟合,并使用交界面关注机制来强调视觉模态和利用嘈杂的听觉模态。在测试集中,本文的方法在 valence 和 arousal 方面通过了 CCC 测试,相较于其他方法有明显的准确度提升。