Nov, 2023

关于自动语音识别表示在现实世界噪音语音情感识别中的有效性

TL;DR本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。