Sep, 2023

基于多标签联合解码的层次音视频信息融合在 MER 2023 上的应用

TL;DR我们提出了一个用于识别离散和维度情感的新框架,通过从基础模型中提取的深度特征作为原始视频的鲁棒声学和视觉表示,设计了三种基于注意力引导特征汇集的不同结构用于深度特征融合,并在解码阶段引入了联合解码结构用于情感分类和价值回归。我们还设计了基于不确定性的多任务损失来优化整个过程。最后,通过在后验概率级别上结合三种不同的结构,我们获得了离散和维度情感的最终预测。当在多模态情感识别挑战数据集(MER 2023)上进行测试时,该提出的框架在情感分类和价值回归方面都取得了一致的改进。我们的最终系统达到了最新的性能并在 MER-MULTI 子挑战中排名第三。