法律堆：从法律和 256GB 开源法律数据集中学习负责任的数据过滤

Jul, 2022

法律堆：从法律和 256GB 开源法律数据集中学习负责任的数据过滤

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset

Peter Henderson, Mark S. Krass, Lucia Zheng, Neel Guha, Christopher D. Manning...

TL;DR本文提出一种基于法律框架的预训练材料过滤方法，利用 Pile of Law 数据集进行预训练，以帮助改善访问司法服务等法律任务，并提取可操作的法律规范，为研究人员提供新的模型处理研究方向。

Abstract

One concern with the rise of large language models lies with their potential for significant harm, particularly from pretraining on biased, obscene, copyrighted, and private information. Emerging ethical approaches have attempted to filter pretraining material, but such approaches have

large language models pretraining material filtering pile of law legal norms access to justice

发现论文，激发创造

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

Pile: 一个包含多样文本的 800GB 语言建模数据集

本研究使用 825GB 的英文文本语料库，旨在训练大规模语言模型，通过 GPT-2 和 GPT-3 的预实验发现，这些模型在处理学术写作等特定组件上表现不佳，而在训练了语料库后在所有组件上都有了显著提高。同时，我们对数据进行了深入分析，提供代码用于其构建。

Dec, 2020

LexGPT 0.1：基于 Pile of Law 的预训练 GPT-J 模型

该篇论文旨在构建专为法律领域定制的生成语言模型，其中 LexGPT 模型可通过 “无代码” 方法对专业数据进行微调，以用于下游任务，但分类器性能比最先进的结果明显较低。

Jun, 2023

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

堆数据表

Pile 数据集是由 EleutherAI 收集的 825 个 Gib 的人类编写文本数据集，由 22 个不同的文本来源组成，可用于大规模语言建模。

Jan, 2022

ProPILE: 大型语言模型中的隐私泄漏探测

本文介绍了一种探测工具 ProPILE，由数据主体或 PII 所有者制定提示，评估基于 LLMs 的服务中 PII 泄漏的程度，并且展示了其在 OPT-1.3B 上的应用，该工具是授予数据主体他们对网络数据的知情权和控制权的开创性一步。

Jul, 2023

质疑案件判决摘要中的偏见：法律数据集还是大型语言模型？

通过研究法律数据集和大型语言模型产生的案件判决摘要中存在的偏见，分析其对法律决策的影响，揭示大型语言模型和预训练的摘要模型生成结果中存在的有趣偏见，并探讨这些偏见背后的原因。

Dec, 2023

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

法律领域中以数据为中心的机器学习

探究数据集大小、训练数据集和测试数据集的划分、人工标注标签准确性等对深度学习分类器性能的影响，指出类的语义同质性会影响分类的难度，并讨论数据集属性评估的建立方法以及数据集增强可以作为提高 AI&Law 各种任务分类性能的另一条途径。

Jan, 2022