FlaCGEC:一份带有细粒度语言标注的中文语法错误纠正数据集
本文提出了 FCGEC,它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库,以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator(STG)基准模型,实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型,同时也揭示出基准模型和人类之间存在显著差距,鼓励未来的模型通过桥接填补这一差距。
Oct, 2022
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
该研究提出了一种用于汉语语法错误纠正任务的神经网络模型,包含拼写错误纠正和语法错误纠正两个步骤,并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分,并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。
Nov, 2022
该论文提出了 MuCGEC,一种多参考,多资源的评估数据集,旨在中文语法错误纠正(CGEC)研究领域中提供一个丰富的数据来源,同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。
Apr, 2022
我们介绍了 NaSGEC 数据集,它是一个新的数据集,旨在为来自多个领域的母语者文本的汉语语法纠错(CGEC)研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本,并通过使用先进的 CGEC 模型和不同的训练数据,为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。
May, 2023
本文讨论了如何提高中文语法纠错模型的训练效率,通过研究发现,多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略,有效提高了模型的焦点能力和性能表现。
Oct, 2022
本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集,并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型,同时提供基于数据集调整的基线模型,并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell),展示了数据集的多样性和实用性。
Oct, 2022
该研究介绍了 EXplainable GEC(可解释的语法错误纠正)任务,重点关注纠正和解释任务的整体作用。为了推动该任务的发展,提出了一个针对中文的 EXGEC 基准,包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列,在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。
Jul, 2024
提出了三种新的中文错别字纠正 (CGEC) 的评估度量:基于参考的度量方法有句子级别准确度和字符级 BLEU;基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。
Apr, 2022
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023