Jun, 2024

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

TL;DR该论文提出了一种无需参考文本信息的联合训练方法,利用预训练的自动语音识别编码器的嵌入差异作为损失,通过改进的排列不变训练(PIT)方法 —— 引导式 PIT(GPIT),在不同度量指标上取得了 6.4% 的词错误率(WER)改善和感知度量指标(如短时客观清晰度)的提升。