LegalLens: 利用 LLMs 识别非结构化文本中的法律违规行为

Feb, 2024

LegalLens: 利用 LLMs 识别非结构化文本中的法律违规行为

LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text

Dor Bernsohn, Gil Semo, Yaron Vazana, Gila Hayat, Ben Hagag...

TL;DR研究专注于通过大规模语言模型检测非结构化文本数据中的法律违规行为，并将这些违规行为与可能受影响的个人关联起来，实验结果表明我们的数据集和设置可以用于这两个任务。

Abstract

In this study, we focus on two main tasks, the first for detecting legal violations within unstructured textual data, and the second for associating these violations with potentially affected individuals. We constructed two datasets using →

legal violations unstructured textual data associating victims large language models class-action cases

发现论文，激发创造

浅析大型语言模型的法律问题

本文介绍了如何将大型语言模型 LLMS 应用于法律领域，对应用于法律任务的不同方法进行了讨论，并探讨了使用 LLMS 所引发的隐私、偏见等法律问题，提出了数据资源领域学习上下文中的一些潜在方向。希望为当前 LLMS 的法律应用现状提供概述，同时强调其集成的潜在益处和挑战。

Mar, 2023

大型语言模型与法律系统的探索：简要调查

人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用，例如在法律文本理解、案例检索和分析等任务中的应用。此外，该调查还突出了大型语言模型在法律领域面临的关键挑战，包括偏见、可解释性和道德考虑，以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展，以及用于各种语言的大型语言模型微调的法律数据集。此外，它提出了未来研究和发展的方向。

Apr, 2024

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现，通过比较三个通用 LLMs（ChatGPT-20b，LLaMA-2-70b 和 Falcon-180b）在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8％，这凸显了需要更强大的法律领域 LLMs。

Nov, 2023

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

利用大型语言模型增强法律合规性和监管分析

研究探索了利用大型语言模型（LLMs）自动提取食品安全领域与要求相关的法律内容并检查法规工件的合规性。研究结果表明，LLMs 在提高法规合规性和监管分析效率方面具有显著的潜力，尤其通过减少手动工作量，提高准确性，并在合理的时间和财务限制下实现。

Apr, 2024

BLT：大型语言模型能应对基础法律文本吗？

公开可获得的最好的 LLM（如 GPT-4 和 PaLM 2）在律师或律师助理所需的基本文本处理方面表现不佳，我们引入了一个基准来量化这种不良表现，这对于目前的 LLMs 在法律实践中的可靠性提出了疑问。为这些任务进行微调使得一种旧的 LLM 在我们的测试集上接近完美的表现，并提高了与法律相关的任务的表现。这个鲜明的结果凸显了在 LLM 训练中需要更多的领域专业知识。

Nov, 2023

利用大型语言模型支持实证法律研究中的主题分析

使用法律专家与大型语言模型（LLM）的协作框架进行主题分析和归纳编码相关研究，对刑事法院意见中的案件描述进行分析，发现典型盗窃案的类别，并证明 LLM 能有效产生初步编码、提高编码质量以及自动分类案件描述主题，为法律研究人员在整合 LLM 到他们的主题分析项目中提供指导。

Oct, 2023

在法律案例检索中利用大型语言模型进行相关判断

利用大型语言模型进行相关判决的准确性研究，提出了一种适用于法律案例相关判决的新型工作流程，并通过与人工专家判断的比较，证明了该工作流程可以获得可靠的相关判决，并通过大型语言模型生成的数据综合增强现有的法律案例检索模型的能力。

Mar, 2024

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

利用上下文化大语言模型理解法律文件

针对印度等人口密集的国家法律案件增长的问题，本论文提出了解决该问题的有效技术 ——SemEval-2023 任务 6：理解法律文本的系统，该系统利用 Legal-BERT-HSLN 模型和 Legal-LUKE 模型预测法律文件的修辞角色和识别法律实体，并表明模型优于基线模型，在领先的任务排行榜中取得显著成绩。

Mar, 2023