ACLJul, 2018
从视觉和声音模态获取无文本情感的可扩展多模态情感分类
Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
Nathaniel Blanchard, Daniel Moreira, Aparna Bharati, Walter J. Scheirer
TL;DR本文介绍了一种多模态融合模型,该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试,并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。