Jun, 2024
D-CPT 法:针对大型语言模型的领域专用持续预训练规模定律
D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu...
TL;DR基于尺度定律的领域特定持续预训练法 (D-CPT Law) 可用于预测不同尺寸的语言模型的理想混合比例,以及交叉领域的 D-CPT Law 可用于目标领域的预测,不同尺寸和数据集尺寸的训练成本相对较低。