BLT：大型语言模型能应对基础法律文本吗？

Nov, 2023

BLT：大型语言模型能应对基础法律文本吗？

BLT: Can Large Language Models Handle Basic Legal Text?

Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme

TL;DR公开可获得的最好的 LLM（如 GPT-4 和 PaLM 2）在律师或律师助理所需的基本文本处理方面表现不佳，我们引入了一个基准来量化这种不良表现，这对于目前的 LLMs 在法律实践中的可靠性提出了疑问。为这些任务进行微调使得一种旧的 LLM 在我们的测试集上接近完美的表现，并提高了与法律相关的任务的表现。这个鲜明的结果凸显了在 LLM 训练中需要更多的领域专业知识。

Abstract

We find that the best publicly available llms like gpt-4 and palm 2 currently perform poorly at basic →

llms gpt-4 palm 2 text handling benchmark

发现论文，激发创造

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现，通过比较三个通用 LLMs（ChatGPT-20b，LLaMA-2-70b 和 Falcon-180b）在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8％，这凸显了需要更强大的法律领域 LLMs。

Nov, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

加密货币证券案件中的大型语言模型：ChatGPT 能否替代律师？

大型语言模型可以提高对法律系统的访问，但是目前很少有关于它们在进行法律任务方面有效性的实证研究。本研究以涉及加密货币的证券案件为背景，研究了语言模型的法律推理和起草能力。我们使用真实案例的情节喂给 GPT-3.5，并评估其确定正确违规行为的能力。研究发现，GPT-3.5 的法律推理能力较弱，但在法律起草方面表现更好。虽然目前无法取代律师，但这些模型的起草能力可以通过降低法律服务成本，为更多人提供司法公正的机会。本研究是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。

Aug, 2023

更好的呼叫 GPT：大型语言模型与律师的比较

这篇论文通过比较大型语言模型与传统的法律合同审核人员、初级律师和法律流程外包商之间的差异，探讨了 LLMs 是否能在合同审核中在准确性、速度和成本效益方面超越人类。我们的实证分析将 LLMs 与由高级律师设定的标准相比较，发现这些先进的模型在确定法律问题方面与人类准确率相匹配甚至超过。在速度方面，LLMs 仅需几秒完成审核，而人类同行则需要数小时。在成本方面，LLMs 以极低一部分的价格运行，使传统方法的成本大幅降低了 99.97%。这些结果不仅仅是统计数据，它们预示着法律实践的巨变。LLMs 有望颠覆法律行业，提高法律服务的可访问性和效率。我们的研究断言，LLM 在法律合同审核领域的主导地位已经到来，挑战着现状，并呼唤法律工作流程的重新构想。

Jan, 2024

阅读注意：大型语言模型在法律实践中的应用

本文通过结合技术和法律学术的最新发现，对大型语言模型（LLMs）在法律实践中的作用和限制进行了反过来的评估，指出过度乐观的预测将导致 LLMs 在法律领域引发低效和风险。

Mar, 2024

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型能否生成高质量的专利要求？

本文通过构建一个数据集，研究了当前大型语言模型在专利声明生成方面的表现。结果表明，基于专利描述生成声明的性能优于先前仅基于摘要的研究。与最先进的通用大型语言模型相比，当前专利特定的大型语言模型表现较差，强调了在该领域开展未来研究的必要性。此外，我们还发现大型语言模型能够产生高质量的首要独立声明，但是对于后续的从属声明，性能显著下降。此外，微调可以增强发明特征的完整性、概念清晰度和特征关联。在测试的大型语言模型中，GPT-4 在专利专家的综合人工评价中表现最佳，具有更好的特征覆盖率、概念清晰度和技术连贯性。尽管具备这些能力，仍需要进行全面的修订和修改，以通过严格的专利审查并确保法律的稳健性。

Jun, 2024

大型语言模型作为税务律师：一个关于法律能力的案例研究

本篇论文探讨了大型语言模型（LLMs）在应用税法方面的能力，发现使用少量提示可以显着提高最先进的模型性能，但它们仍不能像专业的税务律师那样进行推理和判断。

Jun, 2023

浅析大型语言模型的法律问题

本文介绍了如何将大型语言模型 LLMS 应用于法律领域，对应用于法律任务的不同方法进行了讨论，并探讨了使用 LLMS 所引发的隐私、偏见等法律问题，提出了数据资源领域学习上下文中的一些潜在方向。希望为当前 LLMS 的法律应用现状提供概述，同时强调其集成的潜在益处和挑战。

Mar, 2023