FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

Sep, 2023

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

FlaCGEC: A Chinese Grammatical Error Correction Dataset with Fine-grained Linguistic Annotation

Hanyue Du, Yike Zhao, Qingyuan Tian, Jiani Wang, Lei Wang...

TL;DR介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Abstract

chinese grammatical error correction (CGEC) has been attracting growing attention from researchers recently. In spite of the fact that multiple CGEC datasets have been developed to support the research, these datasets lack the ability to provide a deep →

chinese grammatical error correction cgec datasets linguistic topology flacgec dataset diagnostic dataset

发现论文，激发创造

FCGEC: 中文精细化语法纠错语料库

本文提出了 FCGEC，它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库，以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator（STG）基准模型，实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型，同时也揭示出基准模型和人类之间存在显著差距，鼓励未来的模型通过桥接填补这一差距。

Oct, 2022

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022

从拼写到语法：汉语语法错误纠正的新框架

该研究提出了一种用于汉语语法错误纠正任务的神经网络模型，包含拼写错误纠正和语法错误纠正两个步骤，并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分，并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。

Nov, 2022

MuCGEC: 用于中文语法纠错的多参考、多来源评估数据集

该论文提出了 MuCGEC，一种多参考，多资源的评估数据集，旨在中文语法错误纠正（CGEC）研究领域中提供一个丰富的数据来源，同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。

Apr, 2022

NaSGEC：一个来自于母语者文本的多领域中文语法错误数据集

我们介绍了 NaSGEC 数据集，它是一个新的数据集，旨在为来自多个领域的母语者文本的汉语语法纠错（CGEC）研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本，并通过使用先进的 CGEC 模型和不同的训练数据，为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。

May, 2023

强调关注焦点：汉语语法错误纠正

本文讨论了如何提高中文语法纠错模型的训练效率，通过研究发现，多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略，有效提高了模型的焦点能力和性能表现。

Oct, 2022

朝向标准化韩语语法错误修正：数据集和标注

本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集，并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型，同时提供基于数据集调整的基线模型，并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell)，展示了数据集的多样性和实用性。

Oct, 2022

EXCGEC：一个基于修改的能解释中文语法错误的基准

该研究介绍了 EXplainable GEC（可解释的语法错误纠正）任务，重点关注纠正和解释任务的整体作用。为了推动该任务的发展，提出了一个针对中文的 EXGEC 基准，包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列，在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。

Jul, 2024

一种新的评估方法：中文语法错误纠正的评估数据和度量

提出了三种新的中文错别字纠正 (CGEC) 的评估度量：基于参考的度量方法有句子级别准确度和字符级 BLEU；基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。

Apr, 2022

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023