大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

EMNLPNov, 2023

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

Large Language Models are legal but they are not: Making the case for a powerful LegalLLM

Thanmay Jayakumar, Fauzan Farooqui, Luqman Farooqui

TL;DR近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现，通过比较三个通用 LLMs（ChatGPT-20b，LLaMA-2-70b 和 Falcon-180b）在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8％，这凸显了需要更强大的法律领域 LLMs。

Abstract

Realizing the recent advances in natural language processing (NLP) to the legal sector poses challenging problems such as extremely long sequence lengths, specialized vocabulary that is usually only understood by

natural language processing legal sector large language models legal-domain models lexglue benchmark

发现论文，激发创造

BLT：大型语言模型能应对基础法律文本吗？

公开可获得的最好的 LLM（如 GPT-4 和 PaLM 2）在律师或律师助理所需的基本文本处理方面表现不佳，我们引入了一个基准来量化这种不良表现，这对于目前的 LLMs 在法律实践中的可靠性提出了疑问。为这些任务进行微调使得一种旧的 LLM 在我们的测试集上接近完美的表现，并提高了与法律相关的任务的表现。这个鲜明的结果凸显了在 LLM 训练中需要更多的领域专业知识。

Nov, 2023

浅析大型语言模型的法律问题

本文介绍了如何将大型语言模型 LLMS 应用于法律领域，对应用于法律任务的不同方法进行了讨论，并探讨了使用 LLMS 所引发的隐私、偏见等法律问题，提出了数据资源领域学习上下文中的一些潜在方向。希望为当前 LLMS 的法律应用现状提供概述，同时强调其集成的潜在益处和挑战。

Mar, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

大型语言模型与法律系统的探索：简要调查

人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用，例如在法律文本理解、案例检索和分析等任务中的应用。此外，该调查还突出了大型语言模型在法律领域面临的关键挑战，包括偏见、可解释性和道德考虑，以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展，以及用于各种语言的大型语言模型微调的法律数据集。此外，它提出了未来研究和发展的方向。

Apr, 2024

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

法律中的大型语言模型：一项调查

人工智能对传统司法行业产生了重大影响。最近，随着 AI 生成内容的发展，人工智能和法律在图像识别、自动文本生成和交互式聊天等领域得到应用。然而，法律领域的大型语言模型的应用仍处于初级阶段。本文对法律领域的大型语言模型进行了全面调查，揭示了它们在司法系统中的应用。同时，我们还讨论了法律领域大型语言模型的实际实施，如为用户提供法律咨询和协助法官审理案件。此外，我们探讨了法律领域大型语言模型的局限性，包括数据、算法和司法实践。最后，我们总结了实际建议并提出了未来发展方向以解决这些挑战。

Nov, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

大型语言模型作为税务律师：一个关于法律能力的案例研究

本篇论文探讨了大型语言模型（LLMs）在应用税法方面的能力，发现使用少量提示可以显着提高最先进的模型性能，但它们仍不能像专业的税务律师那样进行推理和判断。

Jun, 2023

阅读注意：大型语言模型在法律实践中的应用

本文通过结合技术和法律学术的最新发现，对大型语言模型（LLMs）在法律实践中的作用和限制进行了反过来的评估，指出过度乐观的预测将导致 LLMs 在法律领域引发低效和风险。

Mar, 2024