Oct, 2023

使用自监督表示快速估计语音和文本的错误率

TL;DR通过自监督学习表征方法,引入了一种快速的语音识别错误率估计器(Fe-WER)。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%,而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外,该估计器的推理速度相当于实时因子的 4 倍。