语法错误修正的自动度量验证

ACLApr, 2018

Automatic Metric Validation for Grammatical Error Correction

Leshem Choshen, Omri Abend

TL;DR提出了一种自动化方法 MAEGE 用于语法错误校正度量的验证，该方法可以解决现有实践的许多困难并展示了标准的 M2 度量在语料库级别排名上性能较差的新见解。

Abstract

metric validation in grammatical error correction (GEC) is currently done by observing the correlation between human and metric-induced rankings. However, such correlation studies are costly, methodologically tro

metric validation grammatical error correction maege ranking metric quality

发现论文，激发创造

重温语法错误修正的元评估

本文提出了 SEEDA，这是一个用于语法错误修正的新数据集，包含了 12 个最先进的系统和两个不同焦点的人工纠错评估，通过在句子级别元评估中对齐粒度来改进相关性，并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。

Mar, 2024

语法错误纠正：现有技术综述

在此综述文章中，我们介绍了在自然语言处理领域中的语法错误纠正任务，其中包括越来越流行的神经机器翻译系统，同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标，并总结了近年来的发展以及未来工作和仍面临的挑战，希望本综述能为新手或关注近期发展的研究人员提供全面的资源。

Nov, 2022

没有可比性：语法错误修正中无参考评估指标

本文研究自动评估语法纠错系统的方法，通过使用无需黄金标准参考的语法度量标准和在句子级别而非文本级别计算语法度量标准，可以极大提高评估的准确度。

Oct, 2016

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

CLEME: 语法错误修正的去偏置多参考评估

提出了一种 Chunk-Level Multi-reference Evaluation (CLEME) 方法，通过建立一致边界的块序列并自动确定语法错误边界，以评估多引用设置下的语法纠错系统的性能，CLEME 方法在语料库级别和句子级别设置中比现有基于参考的 GEC 度量表现更好。

May, 2023

CLEME2.0：通过解构编辑项实现更可解释的语法错误修正评估

本篇论文着重于改进语法错误修正（GEC）度量的可解释性，提出了基于参考的评估策略 CLEME2.0，描述了 GEC 系统的四个基本维度，即击中修正、错误修正、欠修正和过修正，综合这些维度对系统进行评估，能够获得高度一致性的人工判定结果。在两个人工判定数据集和六个参考数据集上进行了大量实验证明了该方法的有效性和鲁棒性。经同行评审后，所有代码将会发布。

Jul, 2024

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020

重访语法错误更正评估及其拓展

本文提出了一种新的 GEC 评估指标 PT-M2，该指标只使用基于预训练的度量标准评分，以评估纠正部分，从而达到最佳效果。实验结果表明，PT-M2 显著优于现有方法，取得了 0.949 的皮尔逊相关性的最新最好结果。

Nov, 2022