Mar, 2022
大规模语言模型词表筛选在低频词语音识别中的应用
Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition
W. Ronny Huang, Cal Peyser, Tara N. Sainath, Ruoming Pang, Trevor Strohman...
TL;DR通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略,结合生产语音引擎,利用语言模型融合技术,相对于使用原始语料训练出的语言模型,使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率,并在实时语音搜索流量中得到了有利的侧面对比评估结果。