个性化语法错误修正:针对语言熟练度和母语的适应
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文将基于统计机器翻译和神经机器翻译的自动语法纠错方法相结合,形成一种新的系统,这个混合系统在 CoNLL-2014 和 JFLEG 基准测试上取得了最新的最佳结果。我们的分析显示,所创建的系统比迄今为止报告的任何其他 GEC 系统更接近达到人类水平的性能。
Apr, 2018
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文提出了一种利用 SMT 方法生成的 n 种翻译假设来提高 GEC 准确率的新方法,即利用分类器评分来选择适当的编辑或对 n 种翻译假设进行重新排序,并将这些方法应用于使用 SMT 方法的最新 GEC 系统中,实验结果表明,我们的方法在 GEC 基准测试数据集上的准确性比已发表的最佳结果有显着提高。
Jun, 2016
通过研究英语作为第二语言的学习者的表现和语言熟练度之间的相互作用,我们的方法专注于基于不同熟练程度的零样本和少样本提示和微调模型,以提高外语英语学习者的语法错误修正(GEC)效果。我们发现,过度修正主要发生在高级语言学习者(熟练程度 C)的写作中,而不是熟练程度 A(初学者水平)和熟练程度 B(中级水平)。经过微调的 LLMs,甚至少量提示与英语学习者的写作范例,实际上会导致召回率下降。为了证明我们的论断,我们对 GEC 结果及其根据语言熟练度的评估结果进行了全面检查。
Feb, 2024
介绍了 RobustGEC 基准系统,用于评估 GEC 系统的上下文鲁棒性;通过使用 RobustGEC,揭示了目前最先进的 GEC 系统在应对上下文扰动方面仍然缺乏足够的鲁棒性,并提出了一种简单而有效的方法来纠正这个问题。
Oct, 2023
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在 CoNLL-2014-test 和 BEA-test 上分别取得了 F_0.5 分数为 72.8 和 81.4 的最新最佳性能,为 GEC 的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动 GEC 的发展。
Apr, 2024