ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

Jan, 2024

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

Can ChatGPT Rival Neural Machine Translation? A Comparative Study

Zhaokun Jiang, Ziyin Zhang

TL;DR通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究结果表明，在不同的提示下，自动化度量对 ChatGPT 产生了类似的结果，而当提供翻译任务的示例或上下文信息时，人工评估者更倾向于给 ChatGPT 较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著，这表明了两种翻译质量评估方法之间的差异。这些发现为 ChatGPT 作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

Abstract

Inspired by the increasing interest in leveraging large language models for translation, this paper evaluates the capabilities of large language models (LLMs) represented by ChatGPT in comparison to the mainstrea

large language models neural machine translation translation quality automated metrics human evaluation

发现论文，激发创造

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

区分人工翻译、神经网络翻译和 ChatGPT 的语言和统计方法

通过统计测试、机器学习算法和多维分析方法，本研究探讨 ChatGPT 生成的翻译与神经机器翻译（NMT）及人工翻译（HT）之间的可区分性、语言特征以及相似程度。结果表明，ChatGPT 生成的翻译在大多数多维分析维度上与 NMT 更相似，并展示出高准确性的监督分类结果，而无监督聚类技术的效果不尽人意。这些新颖的发现揭示了这三种翻译类型之间的相互关系，并对 NMT 和生成型人工智能的未来发展具有重要意义。

Dec, 2023

发挥 ChatGPT 在翻译中的威力：一项实证研究

本文探究了如何用 ChatGPT 辅助机器翻译，提出了多种翻译提示。实验结果表明，ChatGPT 在高资源语言翻译方面的表现与专业翻译系统相当或更好，在低资源翻译方面略逊于专业翻译系统，并在多参考文献翻译和特定领域翻译方面表现出优异的性能。此外，我们进行了几个快速提示，表现出不同基础提示的一致改进。这项工作提供了 ChatGPT 在翻译方面仍然具有巨大潜力的实证证据。

Apr, 2023

ChatGPT 如何翻译诗歌的最佳方式？

机器翻译在文学作品中，特别是诗歌翻译领域一直面临重大挑战。本研究通过使用有针对性的提示和小样本情景来评估 ChatGPT 在英中诗歌翻译任务中的性能，并提出了一种基于解释的诗歌机器翻译 (EAPMT) 方法，该方法利用单语诗歌解释作为翻译过程的指导信息。通过专业诗人的评估和使用 GPT-4 进行评估，人机评估结果都显示出我们的 EAPMT 方法优于 ChatGPT 的传统翻译方法和现有的在线系统。本文验证了我们的方法的有效性，并为机器辅助的文学翻译提供了新的视角。

Jun, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

ChatGPT，还是不 ChatGPT：这是一个问题！

本研究的主要目的是提供 ChatGPT 检测的最新技术的全面评估，同时我们评估了其他 AI 生成的文本检测工具，以检测 ChatGPT 生成的内容。此外，我们还创建了一个基准数据集用于评估各种技术在检测 ChatGPT 生成内容方面的性能。研究结果表明，现有方法都不能有效地检测 ChatGPT 生成的内容。

Apr, 2023