Jun, 2024

EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试

TL;DR发布了 EARS(Expressive Anechoic Recordings of Speech)数据集,包含来自不同背景的 107 位说话者,总计 100 小时的干净、无混响的语音数据。数据集涵盖了多种不同的讲话风格,包括情感性语音、不同的阅读风格、非语言声音和自由对话式语音。通过一组仪器度量评估了数据集上的各种语音增强和去混响方法,并对语音增强任务进行了 20 个参与者的听力测试,优选了一种生成方法。此外,我们还引入了一个盲测试集,用于自动在线评估上传数据。数据集下载链接和自动评估服务器可以在网上找到。