Oct, 2021
语音转文本非自回归建模的比较研究
A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation
Yosuke Higuchi, Nanxin Chen, Yuya Fujita, Hirofumi Inaguma, Tatsuya Komatsu...
TL;DR本文对不同的无自回归(NAR)建模方法进行了比较性研究,实验证明了 NAR 模型相较自回归基线的精度降低代价下,可以同时在序列中生成多个输出,具有在实时应用中优足的潜力,在自动语音识别领域的性能差距上得到了一些有趣的发现,并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。