针对数据效率的语言模型 MiniPile 挑战
本研究使用 825GB 的英文文本语料库,旨在训练大规模语言模型,通过 GPT-2 和 GPT-3 的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。
Dec, 2020
该研究介绍了 MathPile,这是一个高质量、大规模的数学专注语料库,包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。此外,还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力,并计划开源不同版本的 MathPile 以及用于处理的脚本,以促进该领域的未来发展。
Dec, 2023
本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。
Jun, 2023
为了推动在诸如北欧语言这样的小语种中开发 LLMs,我们策划了一个高质量的数据集,其中包含所有主要的北日耳曼语言(丹麦语、冰岛语、挪威语和瑞典语),以及一些高质量的英语数据,并详细介绍了我们的数据收集、清理和过滤的过程。
Mar, 2023
通过精心策划的数据预训练,使用新颖的数据混合集,我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现,并打破了已知基础模型的记录,同时还展现了前所未有的准确预测下游评估基准的能力。
Sep, 2023
通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化,我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下,改进我们的基准模型,这为自动筛选高质量数据集提供了新的方法论,并表明大部分的预训练数据可被删除而保持性能。
Sep, 2023
我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并不能取得实质性的改进。
Oct, 2020