Sep, 2023

基于大型预训练基础模型的多语言说话人变更检测(USM-SCD)

TL;DR我们引入了一种多语种说话人变更检测模型(USM-SCD),可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究,我们分析了这种多语种说话人变更检测模型的性能,并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上,与各种公开和内部测试集相比,USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分,相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量,适用于同时处理这两个任务并且计算成本几乎可以忽略。