Apr, 2024

具有发音感知嵌入的语音自动识别转换器

TL;DR该论文提出了具有发音感知嵌入的转录器(PET)。通过在文本令牌中具有相同或相似发音的标记中引入共享组件,PET 模型的解码器嵌入不同于传统转录器,其解码器嵌入根据共同的发音特征进行训练。我们在中文和韩文的多个数据集上进行的实验证明,与传统转录器相比,PET 模型始终提高了语音识别的准确性。我们的研究还揭示了一个错误链反应的现象。与将识别错误均匀分布在一个说话过程中不同,识别错误往往会聚集在一起,后续错误经常跟随先前错误的发生。我们的分析表明,PET 模型通过显著降低在先前错误后生成额外错误的可能性有效减轻了这个问题。我们的实现将与 NeMo 工具包一起开源。