Aug, 2023

基于 Conformer 的单声道音频目标说话人自动语音识别

TL;DR我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。