FCGEC: 中文精细化语法纠错语料库

EMNLPOct, 2022

FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction

Lvxiaowei Xu, Jianwang Wu, Jiawei Peng, Jiayu Fu, Ming Cai

TL;DR本文提出了 FCGEC，它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库，以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator（STG）基准模型，实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型，同时也揭示出基准模型和人类之间存在显著差距，鼓励未来的模型通过桥接填补这一差距。

Abstract

grammatical error correction (GEC) has been broadly applied in automatic correction and proofreading system recently. However, it is still immature in Chinese GEC due to limited high-quality data from native speakers in terms of category and scale. In this paper, we present FCGEC, a

grammatical error correction chinese language processing fine-grained corpus switch-tagger-generator model low-resource settings

发现论文，激发创造

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Sep, 2023

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022

从拼写到语法：汉语语法错误纠正的新框架

该研究提出了一种用于汉语语法错误纠正任务的神经网络模型，包含拼写错误纠正和语法错误纠正两个步骤，并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分，并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。

Nov, 2022

强调关注焦点：汉语语法错误纠正

本文讨论了如何提高中文语法纠错模型的训练效率，通过研究发现，多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略，有效提高了模型的焦点能力和性能表现。

Oct, 2022

MuCGEC: 用于中文语法纠错的多参考、多来源评估数据集

该论文提出了 MuCGEC，一种多参考，多资源的评估数据集，旨在中文语法错误纠正（CGEC）研究领域中提供一个丰富的数据来源，同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。

Apr, 2022

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

NaSGEC：一个来自于母语者文本的多领域中文语法错误数据集

我们介绍了 NaSGEC 数据集，它是一个新的数据集，旨在为来自多个领域的母语者文本的汉语语法纠错（CGEC）研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本，并通过使用先进的 CGEC 模型和不同的训练数据，为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。

May, 2023

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

EXCGEC：一个基于修改的能解释中文语法错误的基准

该研究介绍了 EXplainable GEC（可解释的语法错误纠正）任务，重点关注纠正和解释任务的整体作用。为了推动该任务的发展，提出了一个针对中文的 EXGEC 基准，包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列，在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。

Jul, 2024

语法错误纠正：现有技术综述

在此综述文章中，我们介绍了在自然语言处理领域中的语法错误纠正任务，其中包括越来越流行的神经机器翻译系统，同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标，并总结了近年来的发展以及未来工作和仍面临的挑战，希望本综述能为新手或关注近期发展的研究人员提供全面的资源。

Nov, 2022