ChatGPT 对阿拉伯语语法错误修正

Aug, 2023

ChatGPT for Arabic Grammatical Error Correction

Sang Yun Kwon, Gagan Bhatia, El Moatez Billah Nagoud, Muhammad Abdul-Mageed

TL;DR近期，将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力，但在语法错误纠正任务中，特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力，该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明，各种提示方法与（上下文中的）少样本学习相结合，具有明显的效果，GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49（比我们建立的基线高出约 5 个点），这凸显了语言模型在低资源环境中的潜力，为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果，我们发现无论大小如何，fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型，这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发，我们还开发了一种利用合成数据的方法，该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果，分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。

Abstract

Recently, large language models (LLMs) fine-tuned to follow human instruction have exhibited significant capabilities in various English NLP tasks. However, their performance in grammatical error correction (GEC)

large language models grammatical error correction instruction fine-tuned arabic gec synthetic data

发现论文，激发创造

超越英语：评估用于阿拉伯文语法错误纠正的 LLMs

对于阿拉伯语的语法错误纠正任务，研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果，但是无论规模大小，指令微调模型的性能仍然不及完全微调的模型，此差距指出了语言模型改进的空间。同时，借鉴低资源机器翻译方法，利用合成数据也能显著提升阿拉伯语语法错误纠正的性能，在两个标准阿拉伯语数据集上创造了新的最佳结果，分别达到 73.29 和 73.26 的 F1 分数，相比于同行评审发表的基准模型。

Dec, 2023

使用 ChatGPT 模型评估阿拉伯语 NLP 任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

用于英语学习者文本语法错误修正的开源和商业语言模型

通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型，我们发现大规模语言模型（LLMs）在特定环境下超过监督式英语语法错误纠正模型，并且零次提示在某些情形下与少次提示具有相同竞争力。

Jan, 2024

大型语言模型是语法错误修正的最先进评估器

研究发现大型语言模型（LLMs）在语法错误纠正（GEC）评估中表现优异，特别强调了流畅度作为评估标准的重要性。

Mar, 2024

阿拉伯语语法错误检测和校正的进展：实证研究

本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果，研究表明，使用语法错误信息作为辅助输入可以提高语法纠错性能；此外，研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用，并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。

May, 2023

ChatGPT 是否为高度流利的语法错误修正系统？一项全面评估

本文旨在探究 ChatGPT 在语法错误修复领域的潜力，通过设计零样本连贯性（CoT）和少样本 CoT 方案来进行评估，并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外，作者强调其在低资源和多语言 GEC 任务中的潜力，但是需要进一步分析各种类型的跨句子错误，并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。

Apr, 2023

ChatGPT 还是 Grammarly？评估 ChatGPT 在语法错误更正基准上的性能

本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现，通过与 Grammarly 和 GECToR 等商业和先进模型比较，发现 ChatGPT 在自动评估指标上表现较弱，但经过人工评估，发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性，这表明自动评估指标低估了 ChatGPT 工具的潜力。

Mar, 2023

人非圣贤，驼群亦可学

该研究通过利用语言模型的人工错误生成（AEG）来增强语法错误校正（GEC），发现通过对基于 Llama 2 的语言模型进行微调，可以生成与人类错误相似的合成错误，进一步训练 GEC Llama 模型，使其在已测试的多种语言（德语、乌克兰语和爱沙尼亚语）中的校正效果超过了先前的最先进错误校正模型，并且证明了通过微调较小的序列到序列模型和提示大型商业语言模型（GPT-3.5 和 GPT-4）而生成的错误也对错误生成模型产生有益影响。

Mar, 2024

GPTAraEval：基于阿拉伯语 NLP 的 ChatGPT 全面评估

本文介绍了一项大规模的 ChatGPT 在阿拉伯语自然语言处理方面的评估，结果显示，尽管该模型在英语基准测试上表现出色，但其在阿拉伯语数据集上的性能表现不如针对阿拉伯语进行优化的专用模型。

May, 2023

GPT-3.5 用于语法错误修正

本文研究了在多种语言环境下，使用 GPT-3.5 进行语法错误纠正（GEC）的应用，包括零样本 GEC，针对 GEC 的微调，以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。

May, 2024