使用大型语言模型的机器翻译新趋势:以ChatGPT为例的案例
描述了我们构建跨越1000个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
本文介绍了新的提示方法(Error Analysis Prompting), 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能,并发现了一些其作为 MT 评估器的局限性,结果表明,使用 Error Analysis Prompting,ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。
Mar, 2023
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
利用翻译记忆作为提示是一种有前途的机器翻译模型上下文学习方法,本文通过使用大型语言模型进行提示,发现LLM的‘理解’提示的能力确实有助于更好地利用TMs,并通过实验证明,使用高质量的TM提示可以大大改善预先训练的LLM翻译器的结果,甚至可以与最新状态下大规模领域内双语数据和针对下游任务进行调整的NMT系统的结果相媲美。
May, 2023
使用FLORES-200基准测试,我们提供了首个针对204种语言的实验证据和机器翻译成本分析,发现GPT模型在某些高资源语言上接近或超过传统机器翻译模型的性能,但在低资源语言上表现一直落后于传统机器翻译,对于我们覆盖的语言中的84.1%,ChatGPT的翻译能力低于传统机器翻译模型水平。我们的分析表明,语言的资源水平是决定ChatGPT相对翻译能力的最重要特征,并且暗示ChatGPT在低资源语言和非洲语言上处于劣势。
Sep, 2023
基于编码器-解码器框架的当代翻译引擎发展迅猛,而大型语言模型的出现破坏了它们的地位,提供了实现更优翻译质量的潜力。因此,了解LLMs是如何在何种场景下胜过传统NMT系统,以及如何发挥其优势,变得至关重要。本文首先进行了全面分析,评估了各种商业NMT系统和面向机器翻译的LLMs的优势和局限性。发现NMT系统和面向机器翻译的LLMs都不能有效解决所有翻译问题,但面向机器翻译的LLMs可以作为NMT系统的有希望的补充。基于这些发现,我们探索了混合方法,并提出了合作解码(CoDec)将NMT系统视为预翻译模型,将面向机器翻译的LLMs视为处理NMT系统无法覆盖的复杂场景的补充解决方案。在WMT22测试集和新收集的WebCrawl测试集上的结果表明,CoDec的有效性和效率,突出了将NMT系统与面向机器翻译的LLMs相结合作为强大解决方案的潜力。
Nov, 2023
通过比较ChatGPT和主流神经机器翻译(NMT)引擎将中文外交文本翻译成英文,本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验ChatGPT和NMT引擎的翻译质量。研究结果表明,在不同的提示下,自动化度量对ChatGPT产生了类似的结果,而当提供翻译任务的示例或上下文信息时,人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的两两相关性结果弱且不显著,这表明了两种翻译质量评估方法之间的差异。这些发现为ChatGPT作为一种可靠的机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
Jan, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
通过对多个LLM模型的研究,本文不仅提供了全面的概述,还明确了现有挑战,并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点,为进一步的探索、增强和创新提供了启示。
Mar, 2024