构建日语语法错误修正自动评估质量估计数据集

Jan, 2022

构建日语语法错误修正自动评估质量估计数据集

Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction

Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa...

TL;DR本研究针对日本语言的语法错误校正，通过构建手动评估的数据集，建立了自动评估模型，并进行了元评估以验证该数据集的实用性。

Abstract

In grammatical error correction (GEC), automatic evaluation is an important factor for research and development of GEC systems. Previous studies on →

grammatical error correction automatic evaluation quality estimation japanese meta-evaluation

发现论文，激发创造

语言能力对语法错误修正的质量评估的重要性

本研究探讨了受监管质量评估模型对语法错误修正的影响，并发现评估数据的熟练程度会影响评估模型的性能，以此确保更加稳健的评估模型。

Jan, 2022

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

朝向标准化韩语语法错误修正：数据集和标注

本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集，并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型，同时提供基于数据集调整的基线模型，并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell)，展示了数据集的多样性和实用性。

Oct, 2022

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

重温语法错误修正的元评估

本文提出了 SEEDA，这是一个用于语法错误修正的新数据集，包含了 12 个最先进的系统和两个不同焦点的人工纠错评估，通过在句子级别元评估中对齐粒度来改进相关性，并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。

Mar, 2024

语法错误修正的自动度量验证

提出了一种自动化方法 MAEGE 用于语法错误校正度量的验证，该方法可以解决现有实践的许多困难并展示了标准的 M2 度量在语料库级别排名上性能较差的新见解。

Apr, 2018

语法错误修正中的自我完善策略

本文提出了自我精炼的方法，利用现有模型的预测一致性去除 Grammatical Error Correction（GEC）数据集中的噪声，实现了优于传统基线的去噪效果，并在任务特定技术的帮助下，在 CoNLL-2014、JFLEG 和 BEA-2019 基准测试中实现了最先进的性能。

Oct, 2020

一种新的评估方法：中文语法错误纠正的评估数据和度量

提出了三种新的中文错别字纠正 (CGEC) 的评估度量：基于参考的度量方法有句子级别准确度和字符级 BLEU；基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。

Apr, 2022

评估语法错误修正的有效性：基于日本背景的人工评估方法

采用自动标注工具 ERRANT，使用日本大学生写作样本对最先进的序列标记语法错误检测和纠正模型（SeqTagger）进行了性能评估。结果表明该模型在错误检测方面显示出高精度但也相对保守，主题分析发现冠词和介词是主要错误类型。

Feb, 2024

用于自动评分的日英句子翻译练习数据集

自动评估句子翻译练习（STEs）的任务被提出，旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集，作者展示了使用微调 BERT 和 GPT 模型的基线性能，结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类，但不到 80% 的不正确回答。此外，采用 few-shot 学习的 GPT 模型的结果较微调 BERT 差，表明我们提出的新任务对于最先进的大型语言模型来说是一个具有挑战性的问题。

Mar, 2024