Jul, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

TL;DR该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。