Mar, 2024

野外情感维度识别的联合多模态变压器

TL;DR通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。