语言能力对语法错误修正的质量评估的重要性

Jan, 2022

语言能力对语法错误修正的质量评估的重要性

Proficiency Matters Quality Estimation in Grammatical Error Correction

Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi

TL;DR本研究探讨了受监管质量评估模型对语法错误修正的影响，并发现评估数据的熟练程度会影响评估模型的性能，以此确保更加稳健的评估模型。

Abstract

This study investigates how supervised quality estimation (QE) models of grammatical error correction (GEC) are affected by the learners' proficiency with the data. QE models for GEC evaluations in prior work hav

supervised quality estimation grammatical error correction proficiency level evaluation dataset robust models

发现论文，激发创造

构建日语语法错误修正自动评估质量估计数据集

本研究针对日本语言的语法错误校正，通过构建手动评估的数据集，建立了自动评估模型，并进行了元评估以验证该数据集的实用性。

Jan, 2022

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

个性化语法错误修正：针对语言熟练度和母语的适应

本研究是在少量带注释的句子基础上，通过将通用神经语法纠错系统适应于作者的熟练程度和母语中，在五种熟练程度和十二种不同语言的比较下，发现同时适应两种条件可以最大程度地提高其性能（3.6 F0.5）。

Jun, 2020

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

通过质量估计进行语法错误校正的系统组合

我们提出 GRECO，一种新的最先进的质量估计模型，用于评估纠正后句子的质量，得到与 F0.5 分数更高的更好估计，从而实现更高的 F0.5 分数的综合 GEC 系统。我们还提出了三种利用 GEC 质量估计模型进行系统组合的方法，包括模型无关方法、带有投票偏差的模型无关方法和模型相关方法。综合 GEC 系统在 CoNLL-2014 测试集和 BEA-2019 测试集上表现超过现有最新水平，达到迄今最高的 F0.5 分数。

Oct, 2023

评估基于语言能力的语法错误修正提示策略

通过研究英语作为第二语言的学习者的表现和语言熟练度之间的相互作用，我们的方法专注于基于不同熟练程度的零样本和少样本提示和微调模型，以提高外语英语学习者的语法错误修正（GEC）效果。我们发现，过度修正主要发生在高级语言学习者（熟练程度 C）的写作中，而不是熟练程度 A（初学者水平）和熟练程度 B（中级水平）。经过微调的 LLMs，甚至少量提示与英语学习者的写作范例，实际上会导致召回率下降。为了证明我们的论断，我们对 GEC 结果及其根据语言熟练度的评估结果进行了全面检查。

Feb, 2024

大语言模型时代语法错误修正的支柱：针对现代方法的全面考察

本文通过实验研究语法错误修正，深入研究单模型系统的细微差别，比较集成和排名方法的效率，并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在 CoNLL-2014-test 和 BEA-test 上分别取得了 F_0.5 分数为 72.8 和 81.4 的最新最佳性能，为 GEC 的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果，以便进一步推动 GEC 的发展。

Apr, 2024

机器翻译质量估计的实用视角

本研究旨在提高机器翻译句子水平的翻译编辑速率预测，提出了句子水平的质量分类（QC）观点，以优化召回率，并通过二进制分类器的使用可将后编辑工作量减少至 50-60％。

May, 2020

基于分类的质量评估：用于实际应用的小型高效模型

我们研究了句子级机器翻译的质量估计 (QE) 问题，发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题，而基于分类的方法可以更好地反映他们在实际应用中的性能表现。

Sep, 2021

低错误密度领域的语法错误纠正：新的基准和分析

该研究评估了面向英语非母语学习者写作的语法错误纠正系统（GEC），并发布了一个由具有不同水平的英语使用者生成的网站文本组成的新基准 CWEB，该工作希望能够促进开放域 GEC 模型的发展，以能够概括不同主题和流派。

Oct, 2020