MMFeb, 2021

应用恒 Q 变换的非线性频率扭曲在语音情感识别中的应用

TL;DR本文探讨了基于 constant-Q 转换(CQT)的短时语音情感识别(SER),使用 CQT 的低频分辨率优于标准短时傅里叶变换(STFT)的高频分辨率,经过比较分析,使用深度神经网络(DNN)作为后端分类器对基于 STFT 和 CQT 的短期声学特征进行了参数优化和实验,结果表明使用 CQT 的特征优于 STFT 的光谱特征,并且交叉语料库评估实验表明使用 CQT 的系统对于域外训练数据具有更好的泛化能力。