May, 2024

数据混合的高效实现:语言模型预训练的双变量缩放法

TL;DR本研究提出了一种统一的缩放定律 BiMix,准确地模拟了数据数量和混合比例的双变量缩放行为,通过使用低成本的代理策略优化数据筛选,以提高训练效率。实验证据表明,基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。