大型语言模型“ad referendum”: 在法律领域的机器翻译水平如何？

Feb, 2024

大型语言模型“ad referendum”: 在法律领域的机器翻译水平如何？

Large Language Models "Ad Referendum": How Good Are They at Machine Translation in the Legal Domain?

Vicent Briva-Iglesias, Joao Lucas Cavalheiro Camargo, Gokhan Dogru

TL;DR这项研究评估了两个最先进的大型语言模型（LLMs）与传统神经机器翻译（NMT）系统在法律领域的四种语言对中的机器翻译（MT）质量，结合自动评估度量标准（AEMs）和专业翻译员的人工评估（HE）来评估翻译的排序、流畅性和足够性。结果表明，虽然谷歌翻译在AEMs中的表现通常优于LLMs，但人工评估员认为LLMs，特别是GPT-4，在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明LLMs在处理专业法律术语和背景方面具有潜力，并突出了人工评估方法在评估MT质量方面的重要性。本研究强调了LLMs在专业领域的不断进化能力，并呼吁对传统的AEMs进行重新评估，以更好地捕捉LLM生成的翻译的细微差别。

Abstract

This study evaluates the machine translation (MT) quality of two state-of-the-art large language models (LLMs) against a tradition-al neural mach

发现论文，激发创造

专家、误差与上下文: 人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及MQM框架的评估方法，并应用于WMT 2020挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与WMT众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

误差分析提示使得大型语言模型的翻译评估类似于人类：以ChatGPT为例的案例研究

本文介绍了新的提示方法（Error Analysis Prompting）, 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能，并发现了一些其作为 MT 评估器的局限性，结果表明，使用 Error Analysis Prompting，ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。

Mar, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现LLM评估结果与人类专家的评估结果保持一致。

May, 2023

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2，通过简单的得分预测提示，发现AutoMQM在PaLM-2模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为NLP在法律领域提供了新的机会。本研究旨在量化普通LLMs与领域特定模型在法律领域的表现，通过比较三个通用LLMs（ChatGPT-20b，LLaMA-2-70b和Falcon-180b）在LexGLUE合同条款分类基准测试集上的零样本性能。尽管LLMs未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微F1/宏F1性能比在法律领域微调的较小模型要低19.2/26.8％，这凸显了需要更强大的法律领域LLMs。

Nov, 2023

在源语言中迷失：大型语言模型如何评估机器翻译的质量

大型语言模型在机器翻译评估任务中取得了显著的成果，然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估，从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验，并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性，我们惊讶地发现参考信息显著提高了评估准确性，而源语言信息有时会适得其反，表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估，观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。

Jan, 2024

大型语言模型是语法错误修正的最先进评估器

研究发现大型语言模型（LLMs）在语法错误纠正（GEC）评估中表现优异，特别强调了流畅度作为评估标准的重要性。

Mar, 2024

大型语言模型与法律系统的探索：简要调查

人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用，例如在法律文本理解、案例检索和分析等任务中的应用。此外，该调查还突出了大型语言模型在法律领域面临的关键挑战，包括偏见、可解释性和道德考虑，以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展，以及用于各种语言的大型语言模型微调的法律数据集。此外，它提出了未来研究和发展的方向。

Apr, 2024

面向大型语言模型驱动的无参考翻译评估方法：英语和印度语言

本研究评估大型语言模型对于自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。通过构建一个翻译评估任务，我们进行了零样本学习、上下文示例驱动学习和大型语言模型微调，从而提供了一个0到100的分数，其中100表示完美的翻译，1表示糟糕的翻译。我们将经过训练的系统与现有方法（如COMET、BERT-Scorer和LABSE）进行比较，发现基于大型语言模型的评估器（LLaMA-2-13B）在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。

Apr, 2024

多语言自然语言处理中的评估实践：机器翻译能否替代人工翻译？

对多语言语言模型进行评估，提出可靠的评估实践方向，通过机器翻译研究其在低资源语言上的性能，并发现简化的基准模型能够取得相对强的性能表现。

Jun, 2024