Mar, 2022

使用多分辨率声谱时序表示的声学到口腔运动的语音反演

TL;DR本研究评估了利用多分辨率频谱时间特征作为声学特征对语音信号进行表达,从而从听觉皮层表征语音信号的好处,以推测相应信号的发音学特征。研究使用了威斯康辛大学 X 光微束(XRMB)数据库的语音信号来训练前馈深度神经网络(DNN)以估计 6 个道路变量的发音轨迹。实验结果表明,该方法与利用 Mel 频率倒谱系数的先前实验相比,能达到更高的相关性(0.675)。