Sep, 2023

基于标签上下文的半自回归流式自动语音识别

TL;DR提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。