大型语言模型是语法错误修正的最先进评估器
本文研究自动评估语法纠错系统的方法,通过使用无需黄金标准参考的语法度量标准和在句子级别而非文本级别计算语法度量标准,可以极大提高评估的准确度。
Oct, 2016
本文研究探讨语法纠错(GEC)模型跨语料库评估的必要性。我们评估了多个 GEC 模型(包括 NMT(LSTM、CNN 和 Transformer)和一个 SMT 模型),并发现单一语料库的评估不足以完整评估 GEC 模型的表现。
Apr, 2019
本文提出了一种新的 GEC 评估指标 PT-M2,该指标只使用基于预训练的度量标准评分,以评估纠正部分,从而达到最佳效果。实验结果表明,PT-M2 显著优于现有方法,取得了 0.949 的皮尔逊相关性的最新最好结果。
Nov, 2022
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑GEC系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
对于阿拉伯语的语法错误纠正任务,研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果,但是无论规模大小,指令微调模型的性能仍然不及完全微调的模型,此差距指出了语言模型改进的空间。同时,借鉴低资源机器翻译方法,利用合成数据也能显著提升阿拉伯语语法错误纠正的性能, 在两个标准阿拉伯语数据集上创造了新的最佳结果,分别达到73.29和73.26的F1分数,相比于同行评审发表的基准模型。
Dec, 2023
通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型,我们发现大规模语言模型(LLMs)在特定环境下超过监督式英语语法错误纠正模型,并且零次提示在某些情形下与少次提示具有相同竞争力。
Jan, 2024
本文提出了SEEDA,这是一个用于语法错误修正的新数据集,包含了12个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
Mar, 2024
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在CoNLL-2014-test和BEA-test上分别取得了F_0.5分数为72.8和81.4的最新最佳性能,为GEC的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动GEC的发展。
Apr, 2024
本研究解决了低资源语言(如印尼语)缺乏可用评估语料库的问题,并提出了一种构建语法错误纠正(GEC)语料库的框架。通过利用现有的大型语言模型(如GPT-3.5-Turbo和GPT-4),研究表明该框架能够显著提升低资源语言设置中GEC任务的性能。
Oct, 2024