对 GPT-3.5 和 GPT-4 在巴西葡萄牙语语法纠错方面的评估
本文研究了在多种语言环境下,使用 GPT-3.5 进行语法错误纠正(GEC)的应用,包括零样本 GEC,针对 GEC 的微调,以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。
May, 2024
本文通过实验分析 GPT-3 文本模型在语法纠错任务(GEC)上的性能,比较了不同提示方式下的表现,使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。
Mar, 2023
本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试,旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳,精度达到了 87%。
Mar, 2023
本文旨在探究 ChatGPT 在语法错误修复领域的潜力,通过设计零样本连贯性(CoT)和少样本 CoT 方案来进行评估,并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外,作者强调其在低资源和多语言 GEC 任务中的潜力,但是需要进一步分析各种类型的跨句子错误,并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。
Apr, 2023
通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型,我们发现大规模语言模型(LLMs)在特定环境下超过监督式英语语法错误纠正模型,并且零次提示在某些情形下与少次提示具有相同竞争力。
Jan, 2024
近期,将大型语言模型 fine-tuned 后用于人类指令的研究表明在各种英语自然语言处理任务上取得了显著的能力,但在语法错误纠正任务中,特别是在非英语语言中的应用仍有待深入探索。本文研究了 fine-tuned 后的语言模型在阿拉伯语语法错误纠正中的能力,该任务由于阿拉伯语的丰富形态而变得复杂。我们的研究结果表明,各种提示方法与(上下文中的)少样本学习相结合,具有明显的效果,GPT-4 在专家提示下的 F extsubscript {1} 分数可达到 65.49(比我们建立的基线高出约 5 个点),这凸显了语言模型在低资源环境中的潜力,为模型训练生成有用的合成数据提供了可行的方法。尽管取得了这些积极的结果,我们发现无论大小如何,fine-tuned 后的模型在性能上显著低于大小显著较小的完全 fine-tuned 模型,这种差异突显了语言模型改进的重要空间。受低资源机器翻译方法的启发,我们还开发了一种利用合成数据的方法,该方法在两个标准阿拉伯语基准测试上显著优于先前的模型。我们的工作在阿拉伯语语法错误纠正领域取得了新的最佳结果,分别达到了 2014 和 2015 年 QALB 数据集的 72.19% 和 73.26 的 F$_{1}$ 值。
Aug, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文通过对 Eo-GP 数据集的综合频率分析,以及从真实用户案例中获取的 Eo-GEC 数据集,介绍了利用 GPT-3.5 和 GPT-4 模型改进 Esperanto 语法纠错策略的实验结果,证明了 GPT-4 在自动化和人工评估中的优越性,凸显了先进语言模型在改善对低资源语言的语法问题上的潜力。
Feb, 2024
本文探讨了使用零样本和少量样本设置,以 GPT-3 为基础进行语法错误修正任务的提示式方法的性能和可控性,并发现给定适当的任务说明和示例时,GPT-3 能够实现控制性能,显着增强学习过程。
May, 2023