Feb, 2024

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

TL;DR该研究致力于开发一种自动非侵入式系统,用于预测语音可懂度水平,研究结果显示采用长期短期记忆(LSTM)网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制,能够确定任务中更为相关的帧,从而优于基于支持向量机(SVM)和手工特征、基于均值池化的 LSTM 系统。