Jul, 2022
法律堆:从法律和 256GB 开源法律数据集中学习负责任的数据过滤
Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
Peter Henderson, Mark S. Krass, Lucia Zheng, Neel Guha, Christopher D. Manning...
TL;DR本文提出一种基于法律框架的预训练材料过滤方法,利用 Pile of Law 数据集进行预训练,以帮助改善访问司法服务等法律任务,并提取可操作的法律规范,为研究人员提供新的模型处理研究方向。