Apr, 2023

为反馈预测建立演讲者 - 听众交互模型

TL;DR本文提出一种新颖的后发模型,模拟了英语中 Yeah 和 Uh-huh 以及德语中的对应标记的最小响应的使用,通过处理讲话者语音的声学特征,捕捉和模仿听众的后发行为,并编码演讲者 - 听众交互,提出了一种基于神经网络的声学后发分类器。通过在 Switchboard 和 GECO 数据集上的实验,我们的研究表明,在几乎所有测试场景中,演讲者或听众行为嵌入有助于模型进行更准确的后发预测。更重要的是,一种适当的交互编码策略,即结合演讲者和听众嵌入,能够在 F1-score 方面在两个数据集上实现最佳性能。