Mar, 2022
使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings
Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng...
TL;DR提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型,该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别,并提出了一种基于编码 - 解码的说话者嵌入提取器,可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。