Jul, 2024

学习主导性的序列输出训练

TL;DR通过在注意力编码器-解码器架构中引入辅助模块,自动识别多讲话者语音输出序列的关键因素,本研究提出了一种基于模型的串行化策略。实验结果表明,在LibriSpeech和LibriMix数据库上,我们的方法在2个混合和3个混合情况下显著超越了PIT和FIFO基准。进一步分析显示,串行化模块通过音量和性别等因素识别混合中的主要语音成分,并根据优先级得分对语音成分进行排序。