ACLAug, 2020

语法错误修正的数据加权训练策略

TL;DR本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据,解决了语法错误纠正领域的数据稀缺问题;同时,通过在小型、高质量数据集上导出大型预训练数据的示例级分数,针对 delta-log-perplexity 进行实证研究,以最佳方式将其纳入 GEC 的训练计划中,从而实现对 GEC 测试集的最佳结果。