GPT 是否会产生更少的字面翻译？

ACLMay, 2023

Do GPTs Produce Less Literal Translations?

Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadallah

TL;DR本文研究大型语言模型（LLMs）在机器翻译（MT）中的应用，发现使用 GPT-3 等模型的翻译虽然在质量上相当或更好，但在语句的逐字逐句的程度上比标准 NMT 模型的翻译要少。此外，当翻译的句子中包含习语表达时，这种差异尤为明显。

Abstract

large language models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of machine translation (MT), m

large language models machine translation neural machine translation literalness idiomatic expressions

发现论文，激发创造

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

大语言模型的多语言机器翻译：实证结果和分析

本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战，并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中，本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。

Apr, 2023

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明，在不同的提示下，自动化度量对 ChatGPT 产生了类似的结果，而当提供翻译任务的示例或上下文信息时，人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著，这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

Jan, 2024

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

使用 GPT-4 进行自动翻译后编辑

本研究使用 GPT-4 对多种语言对进行神经机器翻译 (NMT) 输出的翻译后编辑，实现优秀的翻译质量与表现，达成当今最佳翻译质量指标 (WMT-22) 的水平。

May, 2023

面向严重资源匮乏语言的数据生成：GPT-3.5 的协助来自 Google 翻译

我们探讨了语言生成任务中，训练数据严重不足的情况下，GPT 等 LLM 模型如何处理爱尔兰语、马耳他语、威尔士语和布列塔尼语等语言。我们测试了多种提示类型和格式，发现少量样本训练对于直接生成不常见语言较为有效，但通过英语进行翻译后的生成差距不大。在 WebNLG 2023 中，我们的系统在所有语言和指标上均显著优于其他竞争系统，表现出令人满意的效果。然而，我们在威尔士语中表现最好的结果仍远低于 WebNLG'20 中最差的英语系统。

Aug, 2023

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023

使用大型语言模型的机器翻译新趋势：以 ChatGPT 为例的案例

本文讨论机器翻译使用大型语言模型的一些有趣方向，包括样式化翻译、互动翻译、基于翻译记忆的机器翻译以及一种新的使用大型语言模型的评估范式。我们还讨论了机器翻译中的隐私问题以及一种基本的隐私保护方法来减轻这些风险，为了说明我们提出的方向的潜力，我们提供了几个示例，展示了提出的方向的可行性，强调了未来研究中的机遇和挑战。

May, 2023