Sep, 2022

多出口结构联合语音活动和重叠检测

TL;DR本文提出了一种采用多出口架构、知识蒸馏和密集连接等方法的音频多方对话中的叠声检测模型,该模型在 AMI 和 DIHARD-III 基准数据集上的实验结果验证了其有效性和泛化性,并在质量 - 复杂度平衡方面提供了可行的选择。