探究 GPT-3 在语法错误纠正中的有效性:基于提示方法的性能和可控性研究
本文通过实验分析 GPT-3 文本模型在语法纠错任务(GEC)上的性能,比较了不同提示方式下的表现,使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。
Mar, 2023
本文研究了在多种语言环境下,使用 GPT-3.5 进行语法错误纠正(GEC)的应用,包括零样本 GEC,针对 GEC 的微调,以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。
May, 2024
本文旨在探究 ChatGPT 在语法错误修复领域的潜力,通过设计零样本连贯性(CoT)和少样本 CoT 方案来进行评估,并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外,作者强调其在低资源和多语言 GEC 任务中的潜力,但是需要进一步分析各种类型的跨句子错误,并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。
Apr, 2023
本研究介绍了一种通过 Prompt 插入方法实现了大型语言模型对语法错误纠正进行解释的技术,并创建了一个可解释的语法错误纠正数据集,通过在生成过程中显式地控制 Prompt 插入,实现了生成所有纠正原因的解释,提高了纠正原因生成的性能。
Sep, 2023
通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型,我们发现大规模语言模型(LLMs)在特定环境下超过监督式英语语法错误纠正模型,并且零次提示在某些情形下与少次提示具有相同竞争力。
Jan, 2024
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
Jun, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
近期,将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力,但在语法错误纠正任务中,特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力,该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明,各种提示方法与(上下文中的)少样本学习相结合,具有明显的效果,GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49(比我们建立的基线高出约 5 个点),这凸显了语言模型在低资源环境中的潜力,为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果,我们发现无论大小如何,fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型,这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发,我们还开发了一种利用合成数据的方法,该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果,分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。
Aug, 2023
本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现,通过与 Grammarly 和 GECToR 等商业和先进模型比较,发现 ChatGPT 在自动评估指标上表现较弱,但经过人工评估,发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性,这表明自动评估指标低估了 ChatGPT 工具的潜力。
Mar, 2023
通过使用两步式流程,我们提出了一个用于语法错误解释的系统,该系统可以对每个语法错误提供一句解释,并通过分析 GPT-4 在语法错误解释方面的能力,提高了错误解释的准确性。我们的研究还评估了使用我们的系统处理德语和中文语法错误纠正数据的效果,并得出结论该系统可以高效地生成正确的解释,为德语和中文的学习者提供帮助。最后,我们决定开源我们的数据和代码,以鼓励该领域的进一步研究。
Nov, 2023