堆数据表

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

法律堆：从法律和 256GB 开源法律数据集中学习负责任的数据过滤

本文提出一种基于法律框架的预训练材料过滤方法，利用 Pile of Law 数据集进行预训练，以帮助改善访问司法服务等法律任务，并提取可操作的法律规范，为研究人员提供新的模型处理研究方向。

Jul, 2022

CinePile：一种长视频问答数据集和基准

创新的方法使用人工生成的原始数据，结合 LLMS，构建了一个包含 305,000 个多项选择题的全面数据集 CinePile，涵盖视觉和多模态方面，包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时，还对最近的基于视频的 LLMs 进行了评估，发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现，突显了视频理解的复杂性和挑战。

May, 2024

生成数学 AI：第一部分 --MathPile：一个十亿词级别的数学预训练语料库

该研究介绍了 MathPile，这是一个高质量、大规模的数学专注语料库，包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作，确保了语料库的高质量。此外，还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力，并计划开源不同版本的 MathPile 以及用于处理的脚本，以促进该领域的未来发展。

Dec, 2023

IEPile: 挖掘大规模基于模式的信息抽取语料库

通过构建综合的双语（英语和汉语）信息抽取指示语料库 IEPile，可以提高大语言模型在信息抽取中的性能，尤其是零样本泛化能力。

Feb, 2024

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

ProPILE: 大型语言模型中的隐私泄漏探测

本文介绍了一种探测工具 ProPILE，由数据主体或 PII 所有者制定提示，评估基于 LLMs 的服务中 PII 泄漏的程度，并且展示了其在 OPT-1.3B 上的应用，该工具是授予数据主体他们对网络数据的知情权和控制权的开创性一步。

Jul, 2023