Oct, 2023

利用时间戳信息进行序列化联合流式识别和翻译

TL;DR提出了一种流式 Transformer-Transducer (T-T) 模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性,首次实现了使用单个解码器生成一对多联合输出。