Oct, 2023

一种统一的模型?走向端到端的联合说话人分离与语音识别

TL;DR这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。