Sep, 2024

比较离散和连续空间的大型语言模型在语音识别中的应用

TL;DR本文研究了基于大型语言模型的自动语音识别中离散和连续语音表示的有效性,填补了该领域对这些表示的全面比较的空白。我们首次组织并比较了不同特征的训练方法,发现使用HuBERT编码器在LibriSpeech上的最佳词错误率(WER)达到1.69%,为语音识别和自然语言处理的研究提供了重要的见解。