MuCGEC: 用于中文语法纠错的多参考、多来源评估数据集
介绍一种新的中文语法错误修正数据集(FlaCGEC),该数据集具有细粒度的语言注释,并评估了各种先进的 CGEC 方法在该数据集上的表现,结果显示该数据集具有挑战性,能够涵盖广泛的语法错误,并将其作为诊断数据集进行了评估现有的 CGEC 模型。
Sep, 2023
我们介绍了 NaSGEC 数据集,它是一个新的数据集,旨在为来自多个领域的母语者文本的汉语语法纠错(CGEC)研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本,并通过使用先进的 CGEC 模型和不同的训练数据,为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。
May, 2023
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
提出了三种新的中文错别字纠正 (CGEC) 的评估度量:基于参考的度量方法有句子级别准确度和字符级 BLEU;基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。
Apr, 2022
本文提出了 FCGEC,它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库,以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator(STG)基准模型,实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型,同时也揭示出基准模型和人类之间存在显著差距,鼓励未来的模型通过桥接填补这一差距。
Oct, 2022
该研究提出了一种用于汉语语法错误纠正任务的神经网络模型,包含拼写错误纠正和语法错误纠正两个步骤,并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分,并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。
Nov, 2022
本文讨论了如何提高中文语法纠错模型的训练效率,通过研究发现,多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略,有效提高了模型的焦点能力和性能表现。
Oct, 2022
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
该研究介绍了 EXplainable GEC(可解释的语法错误纠正)任务,重点关注纠正和解释任务的整体作用。为了推动该任务的发展,提出了一个针对中文的 EXGEC 基准,包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列,在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。
Jul, 2024
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021