Nov, 2022

用最近邻算法进行中文拼写检查

TL;DR本篇论文介绍了一种新的中文拼写检查方法 InfoKNN-CSC,通过线性插值标准 CSC 模型和 kNN 模型,详细考虑了令牌和上下文的音、形、义信息,并且基于 n-gram 值和输入执行了重新排序方法。针对 SIGHAN 基准测试,实验结果表明,该模型取得了业内领先水平并且比现有方法有着实质性的改进。