BriefGPT.xyz
Oct, 2024
受限参数的语言模型与优质数据的扩展
Scaling Parameter-Constrained Language Models with Quality Data
HTML
PDF
Ernie Chang, Matteo Paltenghi, Yang Li, Pin-Jie Lin, Changsheng Zhao...
TL;DR
本研究解决了传统语言模型扩展规律忽视数据质量对模型泛化能力影响的问题。提出通过“有效训练tokens”的新视角,将文本多样性和合成度作为衡量指标,对200多个参数在25M到1.5B的模型进行了预训练,发现文本质量和模型大小与任务准确率之间的相关性显著。此研究为提高语言模型性能提供了新的见解和方法。
Abstract
Scaling Laws
in
Language Modeling
traditionally quantify training loss as a function of dataset size and model parameters, providing compute-optimal estimates but often neglecting the impact of
→