Mar, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

TL;DR提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。