堆数据表
本研究使用 825GB 的英文文本语料库,旨在训练大规模语言模型,通过 GPT-2 和 GPT-3 的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。
Dec, 2020
本文提出 MiniPile 挑战,呈现一种使用文本语料库的小数据集进行语言模型预训练的方法,其适用性通过在 GLUE 和 SNI 基准测试中得到论证。
Apr, 2023
为了推动在诸如北欧语言这样的小语种中开发 LLMs,我们策划了一个高质量的数据集,其中包含所有主要的北日耳曼语言(丹麦语、冰岛语、挪威语和瑞典语),以及一些高质量的英语数据,并详细介绍了我们的数据收集、清理和过滤的过程。
Mar, 2023
本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。
Jun, 2023
本文提出一种基于法律框架的预训练材料过滤方法,利用 Pile of Law 数据集进行预训练,以帮助改善访问司法服务等法律任务,并提取可操作的法律规范,为研究人员提供新的模型处理研究方向。
Jul, 2022
创新的方法使用人工生成的原始数据,结合 LLMS,构建了一个包含 305,000 个多项选择题的全面数据集 CinePile,涵盖视觉和多模态方面,包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时,还对最近的基于视频的 LLMs 进行了评估,发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现,突显了视频理解的复杂性和挑战。
May, 2024
该研究介绍了 MathPile,这是一个高质量、大规模的数学专注语料库,包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。此外,还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力,并计划开源不同版本的 MathPile 以及用于处理的脚本,以促进该领域的未来发展。
Dec, 2023
本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack,以及如何构建、管理和使用该数据集来训练大型语言模型,通过在 Python 子集上训练 350M 参数解码器,在文本到代码的基准测试上取得了有前途的结果。
Nov, 2022
本文介绍了一种探测工具 ProPILE,由数据主体或 PII 所有者制定提示,评估基于 LLMs 的服务中 PII 泄漏的程度,并且展示了其在 OPT-1.3B 上的应用,该工具是授予数据主体他们对网络数据的知情权和控制权的开创性一步。
Jul, 2023