ACLJan, 2022

利用大规模多样化语料库的捷克文语法错误纠正

TL;DR本文介绍了一个众多且多元的捷克语语料库,标注有语法错误纠正 (GEC) ,目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本,覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统,包括几个基于转换的系统,并为未来的研究设定了一个强有力的基准线。最后,我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库,并遵守了 CC BY-SA 4.0 的许可协议。