Sep, 2022

VarArray meets t-SOT: 推进流式远场对话语音识别技术的最新进展

TL;DR该论文提出了一种新的流式机器人语音识别框架,用于捕获具有任意几何结构的远程麦克风阵列捕获的多个讲话者的重叠语音,并提出了一种基于 VarArray 和 t-SOT 的新型 t-SOT-VA 框架,其结合了连续语音分离和多讲话者语音识别技术。