BriefGPT.xyz
Mar, 2025
从潜在思维中推理学习
Reasoning to Learn from Latent Thoughts
HTML
PDF
Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
TL;DR
本研究解决了语言模型预训练中数据瓶颈的问题,通过显式建模和推理文本生成过程中的潜在思维,显著提高了数据效率。我们通过对数学的持续预训练验证了该方法的有效性,结果显示合成数据的方法在数据效率上优于同量原始数据训练,并且在自我引导的推理过程中,模型性能不断提升,表明在数据受限的预训练中存在新的扩展机会。
Abstract
Compute scaling for language model (LM)
Pretraining
has outpaced the growth of human-written texts, leading to concerns that data will become the bottleneck to LM scaling. To continue scaling
Pretraining
in this
→