Mar, 2023

TOLD:一种新颖的两阶段重叠感知演讲人分离框架

TL;DR本文旨在通过两种新的端到端神经会话分离 (EEND) 模型来处理讲话者活动的重合和联系,分别为基于幂集编码的重合感知 EEND-OLA 和基于两阶段混合系统的 TOLD,结果表明相较于原始 EEND,EEND-OLA 在音频行话数据集上 DER 的表现提升了 14.39%,而使用 SOAP 则提供了另外 19.33%的相对提升,最终 TOLD 在该数据集上取得了新的最佳结果 (10.14%DER)。