带提示插入的控制生成用于语法错误修正中的自然语言解释
本文探讨了使用零样本和少量样本设置,以 GPT-3 为基础进行语法错误修正任务的提示式方法的性能和可控性,并发现给定适当的任务说明和示例时,GPT-3 能够实现控制性能,显着增强学习过程。
May, 2023
通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型,我们发现大规模语言模型(LLMs)在特定环境下超过监督式英语语法错误纠正模型,并且零次提示在某些情形下与少次提示具有相同竞争力。
Jan, 2024
通过引入带有证据词和语法错误类型的大型数据集 EXPECT 以及多个基线模型和分析,本文旨在提高解释性语法纠错系统,验证人类评估说明性语法纠错系统的解释可以帮助第二语言学习者确定是否接受校正建议,并了解相关的语法规则。
May, 2023
通过使用两步式流程,我们提出了一个用于语法错误解释的系统,该系统可以对每个语法错误提供一句解释,并通过分析 GPT-4 在语法错误解释方面的能力,提高了错误解释的准确性。我们的研究还评估了使用我们的系统处理德语和中文语法错误纠正数据的效果,并得出结论该系统可以高效地生成正确的解释,为德语和中文的学习者提供帮助。最后,我们决定开源我们的数据和代码,以鼓励该领域的进一步研究。
Nov, 2023
该研究介绍了 EXplainable GEC(可解释的语法错误纠正)任务,重点关注纠正和解释任务的整体作用。为了推动该任务的发展,提出了一个针对中文的 EXGEC 基准,包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列,在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。
Jul, 2024
本研究提出了一种基于样例的语法错误修正模型,旨在提高模型可解释性,并为语言学习者提供语法判断的基础,实验证明该方法可以提高修正的准确性。
Mar, 2022
通过研究英语作为第二语言的学习者的表现和语言熟练度之间的相互作用,我们的方法专注于基于不同熟练程度的零样本和少样本提示和微调模型,以提高外语英语学习者的语法错误修正(GEC)效果。我们发现,过度修正主要发生在高级语言学习者(熟练程度 C)的写作中,而不是熟练程度 A(初学者水平)和熟练程度 B(中级水平)。经过微调的 LLMs,甚至少量提示与英语学习者的写作范例,实际上会导致召回率下降。为了证明我们的论断,我们对 GEC 结果及其根据语言熟练度的评估结果进行了全面检查。
Feb, 2024
本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果,发现对于涉及文本推理的自然语言推理和问答任务,使用不同样式的说明对 OPT、GPT-3(davinci)和 InstructGPT(text-davinci-001)等四个 LLM 的性能仅会带来小至中等的准确性提高,而 text-davinci-002 能够带来更实质性的提高,并且 LLM 产生的说明可能不支持、甚至与模型预测不一致,但这些说明仍有助于验证模型的预测,在此观察基础上,文章通过训练校准器使用自动提取的评分评估说明的可靠性,从而在全部数据集上实现后处理性能的提高。
May, 2022
本文通过实验分析 GPT-3 文本模型在语法纠错任务(GEC)上的性能,比较了不同提示方式下的表现,使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。
Mar, 2023