Jun, 2024

D-CPT 法:针对大型语言模型的领域专用持续预训练规模定律

TL;DR基于尺度定律的领域特定持续预训练法 (D-CPT Law) 可用于预测不同尺寸的语言模型的理想混合比例,以及交叉领域的 D-CPT Law 可用于目标领域的预测,不同尺寸和数据集尺寸的训练成本相对较低。