Jul, 2023

联合语音与重叠检测:多个音频设置和语音领域的基准测试

TL;DR声活动和重叠演讲检测对于说话人分析是关键的预处理任务。本文提出了一个全面的新绩效基准,用于多种音频设置(单/多通道)和语音领域上的不同声活动和重叠演讲检测模型,并展示了联合训练这两项任务的独特架构在降低训练成本的同时能够获得与两个专门的声活动和重叠演讲检测系统相似的F1分数表现。