Apr, 2025

MegaMath:推动开放数学语料库的极限

TL;DR本研究解决了当前缺乏开放、规模大、高质量数学预训练语料库的问题。通过重新提取、识别优质代码数据以及合成数据等方法,MegaMath提供了3710亿个令牌,成为现有开放数学预训练数据集中数量最多、质量最高的数据集。这一工作为数学中心的大型语言模型提供了重要的基础数据支持。