基于语言规则的本地化中文语法纠错语料库生成

EMNLPOct, 2022

基于语言规则的本地化中文语法纠错语料库生成

Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical Error Correction

Shirong Ma, Yinghui Li, Rongyi Sun, Qingyu Zhou, Shulin Huang...

TL;DR本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Abstract

chinese grammatical error correction (CGEC) is both a challenging NLP task and a common application in human daily life. Recently, many data-driven approaches are proposed for the development of CGEC research. However, there are two major limitations in the CGEC field: First, the lack

chinese grammatical error correction data-driven approaches linguistic rules-based approach training corpora native chinese speakers

发现论文，激发创造

FCGEC: 中文精细化语法纠错语料库

本文提出了 FCGEC，它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库，以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator（STG）基准模型，实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型，同时也揭示出基准模型和人类之间存在显著差距，鼓励未来的模型通过桥接填补这一差距。

Oct, 2022

从拼写到语法：汉语语法错误纠正的新框架

该研究提出了一种用于汉语语法错误纠正任务的神经网络模型，包含拼写错误纠正和语法错误纠正两个步骤，并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分，并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。

Nov, 2022

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Sep, 2023

NaSGEC：一个来自于母语者文本的多领域中文语法错误数据集

我们介绍了 NaSGEC 数据集，它是一个新的数据集，旨在为来自多个领域的母语者文本的汉语语法纠错（CGEC）研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本，并通过使用先进的 CGEC 模型和不同的训练数据，为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。

May, 2023

强调关注焦点：汉语语法错误纠正

本文讨论了如何提高中文语法纠错模型的训练效率，通过研究发现，多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略，有效提高了模型的焦点能力和性能表现。

Oct, 2022

MuCGEC: 用于中文语法纠错的多参考、多来源评估数据集

该论文提出了 MuCGEC，一种多参考，多资源的评估数据集，旨在中文语法错误纠正（CGEC）研究领域中提供一个丰富的数据来源，同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。

Apr, 2022

重新思考大型语言模型在中文语法纠错中的角色

利用大型语言模型作为解释器和评估器，可能提高汉语语法错误纠正任务的性能并减少主观性问题。该研究通过广泛实验和详细分析验证了这种思路和方法的有效性。

Feb, 2024

EXCGEC：一个基于修改的能解释中文语法错误的基准

该研究介绍了 EXplainable GEC（可解释的语法错误纠正）任务，重点关注纠正和解释任务的整体作用。为了推动该任务的发展，提出了一个针对中文的 EXGEC 基准，包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列，在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。

Jul, 2024

评估大型语言模型在中文语法错误修正任务中的能力

大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型，并存在过度纠正的问题。此外，不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。

Jul, 2023

一种新的评估方法：中文语法错误纠正的评估数据和度量

提出了三种新的中文错别字纠正 (CGEC) 的评估度量：基于参考的度量方法有句子级别准确度和字符级 BLEU；基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。

Apr, 2022