Jun, 2023

关于预训练语言模型 N-gram 逼近的研究

TL;DR本研究调查了预先训练的语言模型在自动语音识别中的潜在用途,对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中,发现采样的近似方法支持使用,插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15%,我们引入了一种有限制的词汇解码方法,这将进一步提高 5%的改进。