Nov, 2022

利用自监督帧嵌入实现高效语音质量评估

TL;DR本文提出了一种以帧特征为基础,采用时间依赖建模的自动语音质量评估系统,相较之下与其它表现最佳的模型相比,该系统参数更少(约 40-60 倍)、计算量更少(约 100 倍)、内存消耗更少(约 10-15 倍)且延迟更低(约 30 倍),并且发现帧嵌入优于语句级嵌入,而多任务训练时进行声学条件建模不会降低语音质量预测能力,同时提供更好的解释。