Mar, 2024

在数据稀缺环境中利用ASR驱动的Wav2Vec2探索病态语音质量评估

TL;DR自动语音质量评估中,由于数据稀缺,大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法,通过采用预训练的Wav2Vec2架构作为语音评估中的特征提取器,将学习系统从片段级别提升至音频级别,从而建立了一个新的基准,使得只使用95个训练样本可以实现对可懂度和严重程度得分的预测,平均均方误差分别为0.73和1.15。结果表明,基于ASR的Wav2Vec2模型带来了最佳结果,并且可能暗示了ASR与语音质量评估之间的强相关性。同时,我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。