CVPRApr, 2023

在电影场景中学习情绪和心理状态

TL;DR使用 EmoTx,一个多模态变压器架构,结合视频、多种角色和对话语句进行联合预测,以预测场景和每个角色的多样且多标签情感。在最频繁出现的 10 个和 25 个标签上进行实验,并将 181 个标签映射到 26 个聚类。消融实验和与现有情感识别方法的比较表明,EmoTx 是有效的。对 EmoTx 的自我注意力分数进行分析表明,表达情感通常会关注角色令牌,而其他心理状态则依赖于视频和对话线索。