FCGEC: 中文精细化语法纠错语料库
介绍一种新的中文语法错误修正数据集(FlaCGEC),该数据集具有细粒度的语言注释,并评估了各种先进的 CGEC 方法在该数据集上的表现,结果显示该数据集具有挑战性,能够涵盖广泛的语法错误,并将其作为诊断数据集进行了评估现有的 CGEC 模型。
Sep, 2023
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
该研究提出了一种用于汉语语法错误纠正任务的神经网络模型,包含拼写错误纠正和语法错误纠正两个步骤,并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分,并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。
Nov, 2022
本文讨论了如何提高中文语法纠错模型的训练效率,通过研究发现,多重参考并未提高模型训练的性能。我们提出了一种名为 “OneTarget” 的训练策略,有效提高了模型的焦点能力和性能表现。
Oct, 2022
该论文提出了 MuCGEC,一种多参考,多资源的评估数据集,旨在中文语法错误纠正(CGEC)研究领域中提供一个丰富的数据来源,同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。
Apr, 2022
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
我们介绍了 NaSGEC 数据集,它是一个新的数据集,旨在为来自多个领域的母语者文本的汉语语法纠错(CGEC)研究提供便利。我们为来自社交媒体、科技写作和考试三个本土领域的 12,500 个句子注释了多个参考文本,并通过使用先进的 CGEC 模型和不同的训练数据,为 NaSGEC 提供了可靠的基准结果。我们进一步从经验和统计的角度对我们的领域之间的联系和差距进行了详细的分析。我们希望这项工作能够启发对一个重要但鲜为人知的方向进行未来的研究 - 跨领域 GEC。
May, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
该研究介绍了 EXplainable GEC(可解释的语法错误纠正)任务,重点关注纠正和解释任务的整体作用。为了推动该任务的发展,提出了一个针对中文的 EXGEC 基准,包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列,在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。
Jul, 2024
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022