Jun, 2024

基于 Transformer 的语音识别 N-Best 重新评分和重写模型

TL;DR声助助手越来越多地使用设备上的自动语音识别(ASR)以确保速度和隐私。然而,由于设备上的资源限制,涉及复杂信息领域的查询通常需要搜索引擎进一步处理。针对这种应用,我们提出了一种新颖的基于 Transformer 模型的能够通过并行地探索 N 个最佳假设的完整上下文来重新评分和重写的模型。我们还提出了一种新的区分性序列训练目标,可在重新评分和重写任务中都能良好地工作。我们表明,我们的 “重新评分 + 重写” 模型优于仅重新评分的基准模型,并且相对于仅 ASR 系统本身,词错误率(WER)平均降低了高达 8.6%。