COLINGSep, 2022

uChecker:使用掩码预训练语言模型作为无监督中文拼写检查器

TL;DR本文介绍了一个名为 uChecker 的框架,该框架采用无监督的方法对汉语拼写错误进行检测和修正,其中使用 BERT 这样的模型作为骨干模型,并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明,uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。