语法错误修正的自动度量验证
本文提出了 SEEDA,这是一个用于语法错误修正的新数据集,包含了 12 个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
Mar, 2024
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文研究自动评估语法纠错系统的方法,通过使用无需黄金标准参考的语法度量标准和在句子级别而非文本级别计算语法度量标准,可以极大提高评估的准确度。
Oct, 2016
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
提出了一种 Chunk-Level Multi-reference Evaluation (CLEME) 方法,通过建立一致边界的块序列并自动确定语法错误边界,以评估多引用设置下的语法纠错系统的性能,CLEME 方法在语料库级别和句子级别设置中比现有基于参考的 GEC 度量表现更好。
May, 2023
本篇论文着重于改进语法错误修正(GEC)度量的可解释性,提出了基于参考的评估策略 CLEME2.0,描述了 GEC 系统的四个基本维度,即击中修正、错误修正、欠修正和过修正,综合这些维度对系统进行评估,能够获得高度一致性的人工判定结果。在两个人工判定数据集和六个参考数据集上进行了大量实验证明了该方法的有效性和鲁棒性。经同行评审后,所有代码将会发布。
Jul, 2024
本文介绍了 3 种衡量大规模人工错误数据的质量度量标准:可靠性、多样性和分布一致性,并利用这些标准自动评估数据集的质量。同时,这些指标也可以帮助向数据生成系统提供反馈,从而提高动态生成的合成数据的质量。
Oct, 2022
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本文提出了一种新的 GEC 评估指标 PT-M2,该指标只使用基于预训练的度量标准评分,以评估纠正部分,从而达到最佳效果。实验结果表明,PT-M2 显著优于现有方法,取得了 0.949 的皮尔逊相关性的最新最好结果。
Nov, 2022