关于中国文本纠错的大型语言模型的 (非) 有效性
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
利用大型语言模型作为解释器和评估器,可能提高汉语语法错误纠正任务的性能并减少主观性问题。该研究通过广泛实验和详细分析验证了这种思路和方法的有效性。
Feb, 2024
本文旨在探究 ChatGPT 在语法错误修复领域的潜力,通过设计零样本连贯性(CoT)和少样本 CoT 方案来进行评估,并通过在不同语言以及英语文件级别 GEC 测试集中的表现和人工评估来展示该模型的优秀的错误检测能力和非常流利的纠错结果。此外,作者强调其在低资源和多语言 GEC 任务中的潜力,但是需要进一步分析各种类型的跨句子错误,并展示 ChatGPT 对于某些类型的错误仍然存在一定的局限性。
Apr, 2023
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
介绍了 GrammarGPT,一款开源的大型语言模型,通过使用混合数据集和引导方法,提高了中文语法纠错的性能,最终在 NLPCC2023 SharedTask1 中取得了第三名的成绩。
Jul, 2023
本文评估了 AI 语言模型 ChatGPT 在语法纠错任务上的表现,通过与 Grammarly 和 GECToR 等商业和先进模型比较,发现 ChatGPT 在自动评估指标上表现较弱,但经过人工评估,发现 ChatGPT 更倾向于修改某些短语或句子结构而仍保持语法正确性,这表明自动评估指标低估了 ChatGPT 工具的潜力。
Mar, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023