Aug, 2023

O-1: 使用预先准备好的标注和最佳假设的自我训练

TL;DR介绍了 O-1,一种新的自我训练目标,用于减少训练偏差,统一训练和评估指标,用于语音识别。O-1 是期望最小贝叶斯风险(EMBR)的一种更快的变体,提升了最佳假设,并可以适应有监督和无监督数据。通过在公开可用的 SpeechStew 数据集和大规模内部数据集上进行识别,证明了我们方法的有效性。O-1 相对于 EMBR 在 SpeechStew 上的性能提升了 80%,相对于 EMBR 相对提高了 43%的桥接效果。在 SpeechStew 的各种数据集上,O-1 相对于 EMBR 实现了 13%至 25%的相对改进,并且在内部数据集的 oracle WER 方面,相对于 EMBR 训练,减少了 12%的相对差距。总体而言,O-1 相对于 EMBR 在 WER 上实现了 9%的相对改进,因此证明了该目标在大规模数据集上的可扩展性。