构建日语语法错误修正自动评估质量估计数据集
本文介绍了 3 种衡量大规模人工错误数据的质量度量标准:可靠性、多样性和分布一致性,并利用这些标准自动评估数据集的质量。同时,这些指标也可以帮助向数据生成系统提供反馈,从而提高动态生成的合成数据的质量。
Oct, 2022
本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集,并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型,同时提供基于数据集调整的基线模型,并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell),展示了数据集的多样性和实用性。
Oct, 2022
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文提出了 SEEDA,这是一个用于语法错误修正的新数据集,包含了 12 个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
Mar, 2024
提出了一种自动化方法 MAEGE 用于语法错误校正度量的验证,该方法可以解决现有实践的许多困难并展示了标准的 M2 度量在语料库级别排名上性能较差的新见解。
Apr, 2018
本文提出了自我精炼的方法,利用现有模型的预测一致性去除 Grammatical Error Correction(GEC)数据集中的噪声,实现了优于传统基线的去噪效果,并在任务特定技术的帮助下,在 CoNLL-2014、JFLEG 和 BEA-2019 基准测试中实现了最先进的性能。
Oct, 2020
提出了三种新的中文错别字纠正 (CGEC) 的评估度量:基于参考的度量方法有句子级别准确度和字符级 BLEU;基于无参考的度量方法采用字符级语义保存度量纠正句子的语义保存程度。期望这些度量成为 CGEC 的新标准。
Apr, 2022
采用自动标注工具 ERRANT,使用日本大学生写作样本对最先进的序列标记语法错误检测和纠正模型(SeqTagger)进行了性能评估。结果表明该模型在错误检测方面显示出高精度但也相对保守,主题分析发现冠词和介词是主要错误类型。
Feb, 2024
自动评估句子翻译练习(STEs)的任务被提出,旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集,作者展示了使用微调 BERT 和 GPT 模型的基线性能,结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类,但不到 80% 的不正确回答。此外,采用 few-shot 学习的 GPT 模型的结果较微调 BERT 差,表明我们提出的新任务对于最先进的大型语言模型来说是一个具有挑战性的问题。
Mar, 2024