Jun, 2024

基于块状关注掩码的高效非自回归解码

TL;DR该论文提出了一种新颖的非自回归(NAR)基于块的注意力掩码解码器(AMD),用于平衡 Conformer ASR 系统的性能效率权衡,实现在输出标签的连续块内并行 NAR 推理,通过使用注意力掩码隐藏,同时在块之间进行左到右的 AR 预测和历史上下文融合。设计了一种波束搜索算法,利用 CTC、AR 解码器和 AMD 概率的动态融合。LibriSpeech-100hr 语料库上的实验证明,结合 AMD 模块的三部分解码器在基线 CTC+AR 解码上实现了最大 1.73 倍的解码加速比,而在测试集上未引起统计学显著的词错误率(WER)增加。在具有相同解码实时因素的情况下,相对于 CTC+AR 基线,实现了高达 0.7% 和 0.3% 绝对(相对 5.3% 和 6.1%)的统计学显著 WER 降低。