GPT 模型在机器翻译中有多好？一项全面评估

Feb, 2023

GPT 模型在机器翻译中有多好？一项全面评估

How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr...

TL;DR本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Abstract

Generative Pre-trained Transformer (GPT) models have shown remarkable capabilities for natural language generation, but their performance for machine translation has not been thoroughly investigated. In this paper, we present a comprehensive evaluation of →

gpt models machine translation translation quality hybrid approaches natural language generation

发现论文，激发创造

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明，在不同的提示下，自动化度量对 ChatGPT 产生了类似的结果，而当提供翻译任务的示例或上下文信息时，人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著，这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

Jan, 2024

GPT-3 和 GPT-3.5 系列模型综合能力分析

本研究选取了 6 个代表性的 GPT 系列模型，对它们在 21 个数据集上进行了 9 项自然语言任务的性能评估，发现尽管引入强化学习任务和人性化反馈机制提高了 GPT 系列模型生成人类语言的能力，但也有牺牲部分任务解决能力的代价，同时还有提高模型的鲁棒性的空间。

Mar, 2023

使用生成预训练转换器进行多语言自动翻译到英语的机器翻译

使用本地生成预训练转换器（GPT）模型进行零 - shot 黑盒多自然语言翻译成英文文本，评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。

Apr, 2024

发挥 ChatGPT 在翻译中的威力：一项实证研究

本文探究了如何用 ChatGPT 辅助机器翻译，提出了多种翻译提示。实验结果表明，ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好，在低资源翻译方面略逊于专业翻译系统，并在多参考文献翻译和特定领域翻译方面表现出优异的性能。此外，我们进行了几个快速提示，表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。

Apr, 2023

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

GPT 语言模型在大学教学创新中的应用

GPT (Generative Pre-trained Transformer) 是一种人工智能和自然语言处理技术，能够自动生成文本。本文主要研究了将 GPT 语言模型应用于大学教学的各个方面，包括学生和教师活动的创新、内容理解与生成、问题解决、个性化和试卷批改等。同时，作者还在软件工程等领域进行了详细实验，评估了 ChatGPT 作为助理工具在理论活动、习题和实验实践中的潜在应用价值。

Mar, 2024

GPT 是否会产生更少的字面翻译？

本文研究大型语言模型（LLMs）在机器翻译（MT）中的应用，发现使用 GPT-3 等模型的翻译虽然在质量上相当或更好，但在语句的逐字逐句的程度上比标准 NMT 模型的翻译要少。此外，当翻译的句子中包含习语表达时，这种差异尤为明显。

May, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

用戶友好且開源的大型 GPT 模型的研究：對語言、多模態和科學 GPT 模型的調查

通过本综述论文，我们对大规模 GPT 模型的可替代开源模型进行了研究，重点关注用户友好和相对小型的模型，以促进更容易部署和访问。通过这个广泛的调查，我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解，包括它们的当前状态、挑战和未来研究方向，以激发更高效、易于访问和多功能的 GPT 模型的开发，以满足更广泛的科学界需求，推动通用人工智能领域的发展。

Aug, 2023

评估由 OpenAI 的 GPT 生成的大型语言模型的文本摘要

本研究通过使用传统的 ROUGE 和潜在语义分析（LSA）等指标，将 OpenAI 的 GPT 模型作为独立的评估者，评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地，我们将 GPT 用作评估器而非摘要生成器，使其能够独立评估摘要的质量，而无需预定义的指标。我们的分析显示 GPT 评估与传统指标之间存在显著相关性，尤其是在评估相关性和连贯性方面。结果展示了 GPT 作为评估文本摘要的强大工具的潜力，提供了对已建立指标的补充洞察，并为自然语言处理任务中基于 Transformer 的模型的比较分析提供了依据。

May, 2024