Mar, 2022

动态尺度加权多尺度说话人分离

TL;DR本研究提出基于多尺度解码器的高级多尺度语者分离系统,通过多尺度聚类初始化估计讲话人数和每个尺度的平均发言者表示向量,使用 1-D 卷积神经网络动态决定每个时间步长上每个尺度的重要性,抑制了时间分辨率和发言者表示保真度之间的平衡问题。该系统可以估计存在的说话人数和在 CALLHOME 和 AMI MixHeadset 数据集上实现了业界领先的性能,分别为 3.92% 和 1.05% 的对白错误率。