Apr, 2022

非自回归推理的流式对齐调整

TL;DR提出了一种流式非自回归(non-AR)解码算法,其利用新型变换器解码器架构在每个帧上执行文本和音频的本地自我关注,并在每个层上进行时间对齐的交叉关注,实现了高效率和低延迟,在声音搜索数据集和 Librispeech 上的实验显示,我们的流式模型表现良好,并且在第一遍模型容量较小的情况下进行判别式训练会进一步提高词误率。