Jun, 2024

多模态信念预测

TL;DR识别说话者对信仰的承诺水平是一项困难的任务;我们是第一个推断多模态信仰预测任务并展示结果的研究,使用了包含对齐文本和音频的说话者信仰标注的 CB-Prosody 语料库(CBP);我们报告了使用声学 - 韵律特征和传统机器学习方法的基线和显著特征;我们还提出了基于 BERT 和 Whisper 的 CBP 语料库微调的文本和音频基线;最后,我们提出了使用 BERT 和 Whisper 的多模态架构,并使用多种融合方法,改善了单独的模态。