Mar, 2024

融合声学和基于文本特征的情感识别的方法

TL;DR使用声学和文本特征,研究通过不同方法对语言情感进行分类的研究。使用 BERT 获取情感转录中所包含信息的上下文化词嵌入,相比使用 Glove 嵌入,结果表明表现更好。我们还提出并比较不同的音频和文本模式结合策略,并在 IEMOCAP 和 MSP-PODCAST 数据集上进行评估。我们发现,在这两个数据集上,融合声学和文本系统是有益的,尽管在评估的融合方法中只观察到微小的差异。最后,对于 IEMOCAP 数据集,我们展示了用于定义交叉验证折叠的标准方法对结果的巨大影响。特别是,为该数据集创建折叠的标准方法导致对于文本系统的性能高度乐观的估计,这表明一些先前的作品可能夸大了结合转录的优势。