Oct, 2022

MCSCSet: 专为医学领域拼写校正而标注的中文数据集

TL;DR本论文提出了一个基于大型医学领域中文语法纠错数据集 MCSCSet,该数据集由医学专家手动标注产生,对纠错系统从普通语言到医学专业语言的准确性水平的研究结果表明,针对具体领域的大型数据集建设是提高语言纠错准确性基础,同时评估了多种中文拼写纠错系统,为未来的研究工作提供了基线。