大规模网络挖掘语料在大型语言模型预训练中的挑战综述

Jul, 2024

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training

Michał Perełkiewicz, Rafał Poświata

TL;DR本文综述了使用大规模网络挖掘语料库预训练大型语言模型（LLMs）所面临的挑战，包括噪声、内容重复、低质量或错误信息、偏见以及在网络挖掘语料库中包含敏感或个人信息等。解决这些问题对于开发准确、可靠和符合伦理责任的语言模型至关重要。通过对当前的数据清理、预处理、偏见检测和缓解方法进行检视，我们强调现有方法的不足之处，并提出未来研究的方向。我们的讨论旨在推动发展更复杂和符合伦理责任的LLMs的进步。

Abstract

This article presents a comprehensive review of the challenges associated with using massive web-mined corpora for the pre-training of large lang

发现论文，激发创造

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

将大型语言模型应用于内容审核：数据工程和监督微调中的陷阱

介绍如何微调一种可以私下部署用于内容审核的大型语言模型，并讨论在微调过程中是否融入原因会更好，以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。

Oct, 2023

质量确实重要：对网络挖掘平行语料库的质量和实用性的详细研究

我们对两种低资源语言（英语-僧伽罗语、英语-泰米尔语和僧伽罗语-泰米尔语）的网络挖掘语料库的质量进行了详细分析。我们根据相似度度量对每个语料库进行了排序，并对排名的语料库的不同部分进行了内在和外在评估。我们表明，不同部分的网络挖掘语料库之间存在显著的质量差异，而且质量在不同语言和数据集之间存在变化。我们还表明，对于某些网络挖掘数据集，使用最高排名的25k部分训练的神经机器翻译（NMT）模型可以与人工策划的数据集媲美。

Feb, 2024

通过机器学习去除预训练数据对大型语言模型的影响解析

通过对LLMs的48个数据集进行系统分析，我们测量了它们对LLMs的性能的影响，并研究了它们之间的相关关系，从而为更有效的LLMs预训练提供了洞见。

Feb, 2024

语言模型是否关心文本质量？评估跨越11种语言的网络爬取语料库

经过评估，我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。

Mar, 2024

构建大规模的日语网络语料库用于大型语言模型

通过从Common Crawl档案中提取和精炼文本，该研究构建了一个大型的日语网页语料库，用于训练日语大型语言模型。该语料库包含大约3121亿个字符（约1.73亿页），是目前可用的日语训练语料库中最大的，超过了CC-100、mC4和OSCAR23.10。通过对基于Llama 2的不断预训练，并在日语基准数据集上取得一致（6.6-8.1分）的改善，该研究证明了所提供语料库对Llama 2的改善效果是已有语料库中最大的。

Apr, 2024

全球数据限制：大型语言模型中的道德与效果挑战

本文研究了大规模语言模型（LLM）获取高质量训练数据所面临的多方面挑战，包括数据稀缺、偏差以及低质量内容，并通过使用GPT-4和GPT-4o进行一系列评估，证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略，包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发LLM时需要积极考虑数据限制的有效性和伦理影响，以促进创建更可靠和普遍适用的人工智能系统。

Jun, 2024

FineWeb数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb是一个从96个Common Crawl快照中派生出的1500万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs在FineWeb上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

大型语言模型（LLMs）广泛部署的风险、原因和缓解措施：一项综述

本研究解决了大型语言模型（LLMs）广泛应用所带来的众多挑战，包括学术诚信、版权和伦理问题等，填补了相关文献的空白。通过系统梳理和分析现有文献，我们提出了对特定LLMs的风险分类、成因及解决方案，以及更广泛的挑战和缓解策略。本研究的主要发现是这些模型的复杂性和潜在影响需要更深入的理解与应对。

Aug, 2024