Jan, 2024

跨说话人编码网络用于多说话者语音识别

TL;DR这项工作提出了一个跨说话人编码(Cross-Speaker Encoding,CSE)网络,将单输入多输出(SIMO)模型的局限性通过集成串行输出训练(SOT)的基于注意力的编码器 - 解码器架构的单输入单输出(SISO)模型来解决,首次尝试将 SIMO 和 SISO 整合进多说话人语音识别中,实验结果表明 CSE-SOT 模型在 LibrispeechMix 数据集上比 SOT 模型的词错误率(WER)平均降低 10%,在高重叠语音上降低 16%。