May, 2020

基于编码器 - 解码器吸引子的未知数量说话者端到端分离

TL;DR该论文提出了一种基于编码器 - 解码器的吸引因子计算方法,该方法可灵活地生成不同数量的吸引因子,用以支持不同数量的说话人,并利用传统的自我注意力端到端神经说话人分离网络(SA-EEND)来提取讲话嵌入序列和生成说话人活动,实验结果表明,相对于传统的基于聚类的说话人分离模型和端到端模型,该方法分别在模拟的双说话人条件和未知说话人数量的条件下都取得了更好的说话人分离性能。