Mar, 2024
野外情感维度识别的联合多模态变压器
Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild
Paul Waligora, Osama Zeeshan, Haseeb Aslam, Soufiane Belharbi, Alessandro Lameiras Koerich...
TL;DR通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。