Oct, 2023
一种统一的模型?走向端到端的联合说话人分离与语音识别
One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition
Samuele Cornell, Jee-weon Jung, Shinji Watanabe, Stefano Squartini
TL;DR这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。