语言模型是否关心文本质量?评估跨越 11 种语言的网络爬取语料库
通过对巴斯克语的表征学习进行案例研究,我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高,而且在巴斯克语广泛的语料库中取得了类似的结果,但我们的工作表明,低资源语言的 NLU 性能不是主要受到数据质量的限制,而是与语料库的大小和领域覆盖等其他因素有更重要的关系。
Mar, 2022
我们对两种低资源语言(英语 - 僧伽罗语、英语 - 泰米尔语和僧伽罗语 - 泰米尔语)的网络挖掘语料库的质量进行了详细分析。我们根据相似度度量对每个语料库进行了排序,并对排名的语料库的不同部分进行了内在和外在评估。我们表明,不同部分的网络挖掘语料库之间存在显著的质量差异,而且质量在不同语言和数据集之间存在变化。我们还表明,对于某些网络挖掘数据集,使用最高排名的 25k 部分训练的神经机器翻译(NMT)模型可以与人工策划的数据集媲美。
Feb, 2024
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
通过从 Common Crawl 档案中提取和精炼文本,该研究构建了一个大型的日语网页语料库,用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符(约 1.73 亿页),是目前可用的日语训练语料库中最大的,超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练,并在日语基准数据集上取得一致(6.6-8.1 分)的改善,该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。
Apr, 2024
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(ii) 基于哈希的去重,以及 (iii) 特定位置的异常检测。然后,通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较,评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响,重点关注代表性不足的语言和人口。评估结果表明,每个清理阶段都提高了子语料库的有效性,但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。
Mar, 2024
本文使用多语言 OSCAR 语料库训练单语境化词嵌入 (ELMo) 以进行词性标注和解析任务。研究结果表明,相比于基于 Wikipedia 的嵌入,OSCAR 训练的嵌入在五种中资源语言中表现更好,并超越了多语言 Wikipedia 嵌入的性能。
Jun, 2020
本文介绍了 Colossal Clean Crawled Corpus ,并探讨数据来源、数据包含信息、筛选数据的影响,发现了机器翻译的生成文本和少数族裔个体的数据被过滤,最后提出了从互联网抓取信息构建大规模数据集的建议。
Apr, 2021
该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道,以用于各种语言的预训练文本表示,并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。
Nov, 2019