法律领域大型语言模型的事实性研究

Sep, 2024

法律领域大型语言模型的事实性研究

The Factuality of Large Language Models in the Legal Domain

Rajaa El Hamdani, Thomas Bonald, Fragkiskos Malliaros, Nils Holzenberger, Fabian Suchanek

TL;DR本研究针对大型语言模型（LLMs）在法律领域作为知识基础的事实性进行了探讨，填补了对模型答案准确性评估的研究空白。我们设计了一套涵盖案例法和立法的多样化实际问题数据集，并评估了多种模型，结果显示在别名和模糊匹配下模型性能显著提高，额外在法律文档上进行的预训练也将准确率从63%提升至81%。

Abstract

This paper investigates the Factuality of Large Language Models (LLMs) as knowledge bases in the Legal Domain, in a realistic usage scenar

发现论文，激发创造

浅析大型语言模型的法律问题

本文介绍了如何将大型语言模型 LLMS 应用于法律领域，对应用于法律任务的不同方法进行了讨论，并探讨了使用 LLMS 所引发的隐私、偏见等法律问题，提出了数据资源领域学习上下文中的一些潜在方向。希望为当前 LLMS 的法律应用现状提供概述，同时强调其集成的潜在益处和挑战。

Mar, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维NLP基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的LLMs模型。

Jun, 2023

ChatLaw: 带外部知识库集成的开源法律大语言模型

本文介绍了一个名为ChatLaw的开源法律大语言模型，它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现，解决了参考数据筛选过程中的模型幻觉问题，提升了其解决问题的能力。

Jun, 2023

LegalBench：一个协作构建的基准测试，用于评估大型语言模型在法律推理方面的表现

介绍了LegalBench，对20个开源和商业的大型语言模型进行了实证评估，并展示了LegalBench所提供的研究探索类型。

Aug, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准LawBench，并经过广泛测试发现GPT-4是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为NLP在法律领域提供了新的机会。本研究旨在量化普通LLMs与领域特定模型在法律领域的表现，通过比较三个通用LLMs（ChatGPT-20b，LLaMA-2-70b和Falcon-180b）在LexGLUE合同条款分类基准测试集上的零样本性能。尽管LLMs未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微F1/宏F1性能比在法律领域微调的较小模型要低19.2/26.8％，这凸显了需要更强大的法律领域LLMs。

Nov, 2023

在法律案例检索中利用大型语言模型进行相关判断

利用大型语言模型进行相关判决的准确性研究，提出了一种适用于法律案例相关判决的新型工作流程，并通过与人工专家判断的比较，证明了该工作流程可以获得可靠的相关判决，并通过大型语言模型生成的数据综合增强现有的法律案例检索模型的能力。

Mar, 2024

大型语言模型与法律系统的探索：简要调查

人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用，例如在法律文本理解、案例检索和分析等任务中的应用。此外，该调查还突出了大型语言模型在法律领域面临的关键挑战，包括偏见、可解释性和道德考虑，以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展，以及用于各种语言的大型语言模型微调的法律数据集。此外，它提出了未来研究和发展的方向。

Apr, 2024

大型语言模型在司法实体抽取中的比较研究

此研究探讨了大型语言模型在识别司法文件中的领域特定实体的应用，特别关注其处理领域特定语言复杂性和上下文变化的能力，并评估了包括Large Language Model Meta AI 3、Mistral和Gemma在内的最先进大型语言模型架构在提取适用于印度司法文本的司法事实方面的性能，其中Mistral和Gemma表现出优异的精确度和召回率，证实了大型语言模型在司法文件中的价值，展示了它们如何通过生成精确、有组织的数据输出来促进和加快科学研究，适合进行深入的研究。

Jul, 2024