Apr, 2024

Rho-1: 不是所有的令牌都是你所需要的

TL;DR先前的语言模型预训练方法一直对所有训练标记应用相同的下一个标记预测损失。挑战这一规范,我们认为“语言模型训练并非所有语料库中的标记都同等重要”。我们的初步分析探究了语言模型的标记级训练动态,揭示了不同标记的独特损失模式。利用这些见解,我们引入了一种名为Rho-1的新型语言模型。不同于传统的语言模型学习预测语料库中的每个下一个标记,Rho-1采用选择性语言建模(SLM),选择性地训练与期望分布对齐的有用标记。该方法涉及使用参考模型对预训练标记进行评分,然后通过对具有更高过量损失的标记施加专注损失,训练语言模型。当在150亿个OpenWebMath语料库上进行连续预训练时,Rho-1在9个数学任务中的小样本准确性上取得了高达30%的绝对改进。经过微调后,Rho-1-1B和7B在MATH数据集上分别达到了40.6%和51.8%的最先进结果,相当于仅使用3%的预训练标记的DeepSeekMath的水平。此外,当在800亿个常规标记上进行预训练时,Rho-1在15个不同任务中的平均提升率为6.8%,提高了语言模型预训练的效率和性能。