Feb, 2024

结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类

TL;DR本研究提出了基于 LSTM 网络的注意力机制来预测语音可懂度级别,并探讨了使用每帧调制谱来作为输入特征以及不同的融合策略(后期融合和加权池化融合)对语音可懂度预测任务的效果,结果表明 LSTM 网络可以有效地建模调制谱序列,而后期融合和加权池化融合的策略能够提供更好的结果