Jul, 2023
利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练
Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments
TL;DR该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成,其平均ASR延迟为1秒,ST延迟为1.3秒,在多语言情况下优化了输出质量表现。