May, 2020

针对目标发言者的语音活动检测:晚宴场景下多说话人对话系统的一种新方法

TL;DR提出一种新的 TS-VAD 方法,通过直接预测每个时间帧上每个演讲者的活动来解决重叠说话问题,并使用 i-vectors 作为输入,并扩展到多麦克风情况,并研究了预测演讲者活动概率的后处理策略。在 CHiME6 数据上的实验证明,TS-VAD 取得了优于基于 x-vector 的基准系统 30% 以上的 DER 绝对值的最新结果。