Feb, 2024

大型语言模型“ad referendum”: 在法律领域的机器翻译水平如何?

TL;DR这项研究评估了两个最先进的大型语言模型(LLMs)与传统神经机器翻译(NMT)系统在法律领域的四种语言对中的机器翻译(MT)质量,结合自动评估度量标准(AEMs)和专业翻译员的人工评估(HE)来评估翻译的排序、流畅性和足够性。结果表明,虽然谷歌翻译在AEMs中的表现通常优于LLMs,但人工评估员认为LLMs,特别是GPT-4,在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明LLMs在处理专业法律术语和背景方面具有潜力,并突出了人工评估方法在评估MT质量方面的重要性。本研究强调了LLMs在专业领域的不断进化能力,并呼吁对传统的AEMs进行重新评估,以更好地捕捉LLM生成的翻译的细微差别。