ACLMay, 2020

GECToR -- 语法错误修正:标注,而非重写

TL;DR本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具,该系统采用合成数据进行预训练,并在连续两个阶段上进行微调,第一阶段在有错误的语料库上,第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正 。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014(测试)上的 $F_{0.5}$ 为 65.3 / 66.5,在 BEA-2019(测试)上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。