Apr, 2024

基于文本质量的修剪方法用于语言模型的高效训练

TL;DR本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这种方法,在多个模型和数据集上可以获得显著的训练效果提升,并展示了资源高效的 LM 训练的潜力。例如,在使用 OpenWebText 数据集进行训练时,相对于较少的数据量和较快的训练速度,多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%,在使用 Wikipedia 数据集时,平均绝对准确性提高了 0.8%。