Nov, 2022

CSCD-IME:拼音输入法生成的拼写错误修正

TL;DR该论文介绍了一个由真实社交媒体数据构成的对拼音输入法产生的中文拼写错误进行检测和纠正的数据集(CSCD-IME),并提出了利用拼音输入法自动生成大规模高质量的伪数据的方法,实验结果表明,我们提出的伪数据构建方法能够更好地适应这种错误分布并提高CSC系统的性能。