ACLApr, 2024

延迟 NAM: 通过延迟上下文编码实现低延迟的 Top-K 上下文注入非流式自动语音识别

TL;DR移动轻量级短语选择传递至上下文编码器前,可以将速度提高至 16.1 倍,并使得偏置能够适用于包含最多 20K 短语的情况,而最大的预解码延迟不超过 33ms。通过短语和词元级交叉熵损失的加入,我们的技术相较于没有这些损失和轻量级短语选择传递的基准技术,还获得了最多 37.5% 的相对词错误率降低。