关于我：使用网页中的自我描述来记录英语预训练数据过滤的效果

Jan, 2024

关于我：使用网页中的自我描述来记录英语预训练数据过滤的效果

AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters

Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman...

TL;DR大型语言模型的能力来源于它们的预训练数据，而模型开发始于数据筛选。我们的研究基于网络文本，将其连接到社交和地理背景，并创建了一个包含 1030 万个网站创作者自我描述的新数据集，提取了关于他们的兴趣、社交角色和地理隶属的信息。然后，我们进行了第一项研究，调查了十种 “质量” 和英语语言标识（langID）过滤器对这些社交维度变化的网页的影响。我们的实验揭示了数据筛选中一系列的隐含偏好：我们发现一些质量分类器像专题领域过滤器一样起到作用，而 langID 可能会忽视世界上某些地区的英语内容。总体而言，我们希望我们的工作能够促进关于预训练数据筛选实践及其社会影响的新的研究方向。

Abstract

large language models' (LLMs) abilities are drawn from their pretraining data, and model development begins with data curation. However, decisions around what data is retained or removed during this initial stage

large language models pretraining data data curation web text social and geographic contexts

发现论文，激发创造

谁的语言算是高品质？测量文本数据选择中的语言意识形态

本文使用美国高中学生撰写的报纸文章，研究了 GPT-3 质量筛选器偏向于哪些学校、地理区域和社会阶层的语言。研究发现质量筛选器的质量测量与事实和文学赞誉等合理指标不一致，强调任何语料库为高质量都涉及到语言意识形态，需要更谨慎地构建语言模型培训语料库，更好地明确各种文本的包含或排除的透明度和理由。

Jan, 2022

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

AutoPureData: 网络数据的自动过滤用于 LLM 微调

通过收集和过滤来自网络的数据，利用现有可信的人工智能模型，实现对大型语言模型进行自动训练并提高数据纯净度。

Jun, 2024

预训练模型训练数据指南：测量数据的年龄、领域覆盖、质量和毒性的影响

对预训练数据合理性进行了研究，为语言模型开发做出了数据方面的决策提供支持。

May, 2023

自诊断和自去偏见：降低 NLP 中基于语料库的偏见的提案

本文介绍了一种基于自我诊断的解码算法，可减少语言模型产生问题文本的概率。该算法不依赖于手动策划的单词列表，也不需要任何训练数据或模型参数的更改，并认为这是解决语言模型产生偏见文本问题的重要一步。

Feb, 2021

使用网络数据，仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

本文表明，即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型，其训练数据量可以达到万亿级别，不需要过多地依赖于高质量的非网络数据的训练数据集。

Jun, 2023

使用条件似然过滤减少语言模型的危害

提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Aug, 2021

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

利用大型语言模型的知识蒸馏进行网络内容过滤

本研究利用大型语言模型进行 URL 分类，并通过知识蒸馏技术生成了精简版学生模型，使得模型在以 URL 为基础的网页分类任务中准确度提高了 9%，比此前状态 - of-the-art 的方法表现更佳，精简版学生模型使得模型可用于大规模 URL 的内联扫描，并且所需的手工标记训练数据量较之前的方法减少了 3 个数量级。

May, 2023

大型语言模型中模型压缩对社会偏见的影响理解

大型语言模型通过自我监督在大规模网络文本上进行训练，模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响，但在这两个方法之间的相互作用方面，目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究，结果表明，较长的预训练时间和较大的模型会导致更高的社会偏见，而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。

Dec, 2023