AutoPureData: 网络数据的自动过滤用于 LLM 微调

Jun, 2024

AutoPureData: 网络数据的自动过滤用于 LLM 微调

AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning

Praneeth Vadlapati

TL;DR通过收集和过滤来自网络的数据，利用现有可信的人工智能模型，实现对大型语言模型进行自动训练并提高数据纯净度。

Abstract

Up-to-date and reliable large language models (LLMs) are consistently sought after. Typically, LLMs are trained on a fixed dataset and then deployed. However, the training data continually becomes outdated. Enabl

large language models data quality training data web data filtering unwanted text

发现论文，激发创造

使用网络数据，仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

本文表明，即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型，其训练数据量可以达到万亿级别，不需要过多地依赖于高质量的非网络数据的训练数据集。

Jun, 2023

用于鲁棒语言模型微调的自动数据整理

通过自动数据加工管道 CLEAR (Confidence-based LLM Evaluation And Rectification) 对指令调谐数据集进行自动加工，提高模型性能。

Mar, 2024

关于我：使用网页中的自我描述来记录英语预训练数据过滤的效果

大型语言模型的能力来源于它们的预训练数据，而模型开发始于数据筛选。我们的研究基于网络文本，将其连接到社交和地理背景，并创建了一个包含 1030 万个网站创作者自我描述的新数据集，提取了关于他们的兴趣、社交角色和地理隶属的信息。然后，我们进行了第一项研究，调查了十种 “质量” 和英语语言标识（langID）过滤器对这些社交维度变化的网页的影响。我们的实验揭示了数据筛选中一系列的隐含偏好：我们发现一些质量分类器像专题领域过滤器一样起到作用，而 langID 可能会忽视世界上某些地区的英语内容。总体而言，我们希望我们的工作能够促进关于预训练数据筛选实践及其社会影响的新的研究方向。

Jan, 2024

利用大型语言模型的知识蒸馏进行网络内容过滤

本研究利用大型语言模型进行 URL 分类，并通过知识蒸馏技术生成了精简版学生模型，使得模型在以 URL 为基础的网页分类任务中准确度提高了 9%，比此前状态 - of-the-art 的方法表现更佳，精简版学生模型使得模型可用于大规模 URL 的内联扫描，并且所需的手工标记训练数据量较之前的方法减少了 3 个数量级。

May, 2023

利用互联网优化大型语言模型

本文提出一种利用搜索引擎对大型语言模型进行网络增强的方法，通过自适应搜索引擎辅助学习和基于重要区间预测的连续知识学习任务，使模型在各种知识密集型任务中的性能表现显著优于基于检索的增强方法。

May, 2023

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

基于动态数据过滤的训练可能不适用于自然语言处理数据集

探讨了使用 Area Under the Margin（AUM）度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本，表明该方法可以滤除 NLP 数据集中的错误标记，但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。

Sep, 2021

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

使用条件似然过滤减少语言模型的危害

提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Aug, 2021