The success of the multilingual automatic speech recognition systems
empowered many voice-driven applications. However, measuring the performance of
such systems remains a major challenge, due to its dependency on manually
transcribed speech data in both mono- and multilingual scenario
研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构,同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质,并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估,结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。