Feb, 2024

大型语言模型 “ad referendum”: 在法律领域的机器翻译水平如何?

TL;DR这项研究评估了两个最先进的大型语言模型(LLMs)与传统神经机器翻译(NMT)系统在法律领域的四种语言对中的机器翻译(MT)质量,结合自动评估度量标准(AEMs)和专业翻译员的人工评估(HE)来评估翻译的排序、流畅性和足够性。结果表明,虽然谷歌翻译在 AEMs 中的表现通常优于 LLMs,但人工评估员认为 LLMs,特别是 GPT-4,在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明 LLMs 在处理专业法律术语和背景方面具有潜力,并突出了人工评估方法在评估 MT 质量方面的重要性。本研究强调了 LLMs 在专业领域的不断进化能力,并呼吁对传统的 AEMs 进行重新评估,以更好地捕捉 LLM 生成的翻译的细微差别。