大型语言模型是翻译质量的最先进评估工具
这篇论文介绍了 GEMBA-MQM,它是一种基于 GPT 的评估指标,专门用于检测翻译质量错误,尤其适用于无需人工参考翻译的质量估计设置。基于大型语言模型(LLM)的强大能力,GEMBA-MQM 采用了固定的三步提示技术,查询 GPT-4 模型以标记错误质量范围。与以前的工作相比,我们的方法具有语言无关的提示,因此避免了为新语言进行手动提示准备。尽管初步结果表明,GEMBA-MQM 在系统排名上达到了最先进的准确性,但鉴于其依赖专有的黑盒 GPT 模型,我们建议在学术论文中谨慎使用它以展示相对于其他方法的改进。
Oct, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
通过比较 ChatGPT 和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对 ChatGPT 产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
本研究对 GPT 模型在机器翻译方面的表现进行了全面评估,涵盖了许多方面,如与最新研究和商业系统的不同 GPT 模型的质量比较,提示策略的效果,域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向,包括高资源和低资源语言以及非以英语为中心的翻译,评估了三个 GPT 模型:ChatGPT,GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明,对于高资源语言,GPT 模型达到了极具竞争力的翻译质量,而对于低资源语言的能力却有限,同时也证明了混合方法(将 GPT 模型与其他翻译系统相结合)可以进一步提高翻译质量。我们进行了全面的分析和人工评估,以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解,并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。
Feb, 2023
通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法,实验证明 ChatGPT 能够有效地从不同角度评估文本质量,尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是,直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。
Apr, 2023
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
Apr, 2024
介绍了 Eval4NLP 2023 共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有 fine-tuning 的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括 GEMBA 和 Comet-Kiwi-XXL)相媲美甚至超过,并对 LLMs 的解释的可行性进行了小规模人类评估。
Oct, 2023