Jun, 2022

通过 Token 熵变量减少的方法提升语音识别

TL;DR该论文提出了一种名为 TEVR 的语音识别模型,旨在减少与语言模型相关的令牌熵的差异。我们使用了 9 亿个参数训练了德语 ASR 模型,并展示了在 CommonVoice 德语数据集上,TEVR 获得了非常有竞争力的 3.64% 词错误率,相对于词错误率的最佳报告结果减少了 16.89%。我们希望将我们完全训练好的语音识别管道释放给社区,以期未来实现隐私保护的离线虚拟助手。