BriefGPT.xyz
Ask
alpha
关键词
data efficiency hypothesis
搜索结果 - 1
语言模型的核心数据规模:一种全面理解的视角
通过研究数据规模,我们发现了语言模型从快速记忆到慢速泛化的临界点,提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示,只有当语言模型达到一定的关键尺寸
→
PDF
6 months ago
Prev
Next