Jun, 2024

不嵌入说话者:长形式神经辨说的无嵌入方法

TL;DR在本文中,我们提出了一种新的框架,将神经联合抄录模型(EEND)应用于长篇音频,既不需要单独的说话者嵌入,又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。