大型语言模型是语法错误修正的最先进评估器
通过评估四个已建立的语法错误纠正基准数据集上的七个开源模型和三个商业模型,我们发现大规模语言模型(LLMs)在特定环境下超过监督式英语语法错误纠正模型,并且零次提示在某些情形下与少次提示具有相同竞争力。
Jan, 2024
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
对于阿拉伯语的语法错误纠正任务,研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果,但是无论规模大小,指令微调模型的性能仍然不及完全微调的模型,此差距指出了语言模型改进的空间。同时,借鉴低资源机器翻译方法,利用合成数据也能显著提升阿拉伯语语法错误纠正的性能, 在两个标准阿拉伯语数据集上创造了新的最佳结果,分别达到 73.29 和 73.26 的 F1 分数,相比于同行评审发表的基准模型。
Dec, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
利用大型语言模型作为解释器和评估器,可能提高汉语语法错误纠正任务的性能并减少主观性问题。该研究通过广泛实验和详细分析验证了这种思路和方法的有效性。
Feb, 2024
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的 LLM 模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳,而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。
Jun, 2024
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
Jun, 2023
这篇论文讨论了使用大型语言模型(LLMs)对开放文本短答案问题进行评分的实验,研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现,并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。
May, 2024