Mar, 2024

评估深度说话人分析的谱聚类鲁棒性

TL;DR对于说话人区分,聚类说话人嵌入是至关重要的,但它尚未得到与其他组件一样多的关注。此外,当开发和评估数据来自不同领域时,对于说话人区分在各种数据集上的鲁棒性尚未得到探究。为了弥补这一差距,本研究深入研究了用于同领域和跨领域说话人区分的谱聚类方法。我们在两个广泛使用的语料库 AMI 和 DIHARD 上进行了大量实验,揭示了在领域不匹配情况下的说话人区分性能趋势。我们观察到,两种不同领域条件之间的性能差异可以归因于谱聚类的作用。特别是,在保持其他模块不变的情况下,我们展示了最佳调参参数以及说话人数量估计差异的来源是由于不匹配引起的。这项研究为说话人区分研究开辟了几个未来方向。