OpenWebMath:一个高质量数学网页文本开放数据集
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMathInstruct-1,并在 GSM8K 和 MATH 两个热门数学推理基准上取得了与最佳 gpt - 蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和 OpenMathInstruct-1 数据集。
Feb, 2024
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。
Jun, 2024
通过利用基础语言模型进行自主数据选择,改进语言模型在数学推理方面的能力,我们引入了一种创新的策略。该策略利用元提示语言模型作为零 - shot 验证器,自主评估和选择高质量的数学内容。我们发布了一个经过筛选的开源 AutoMathText 数据集,包含超过 200GB 的数据。我们将 7B 参数的 Mistral 语言模型连续预训练于 AutoMathText 数据集上,与以前的连续预训练工作相比,下游性能显著提高,并且标记数量大幅减少。我们的方法比基准方法提高了 2 倍的预训练标记效率,突显了我们方法在增强模型数学推理能力方面的潜力。AutoMathText 数据集可在此 https URL 获取,代码可在此 https URL 获取。
Feb, 2024
介绍了一种新的 MATH 数据集,其中包含 12500 个具有挑战性的竞赛数学问题,每个问题都有全面的解决方案,可以用于教模型生成答案推导和解释。尽管研究者不断增加 Transformer 模型的预算和参数总数,但在 MATH 的准确性仍然相对较低,因此未来的研究可能需要更广泛的算法进步。
Mar, 2021
本文表明,即使仅使用经过过滤和去重的网络数据,也可以训练出性能良好的大型语言模型,其训练数据量可以达到万亿级别,不需要过多地依赖于高质量的非网络数据的训练数据集。
Jun, 2023
该研究介绍了 MathPile,这是一个高质量、大规模的数学专注语料库,包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。此外,还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力,并计划开源不同版本的 MathPile 以及用于处理的脚本,以促进该领域的未来发展。
Dec, 2023
本文介绍了一个以定理驱动的问答数据集 TheoremQA,用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA,并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的,达到了 51%,而现有的所有开放源代码模型都低于 15%,仅仅超过了随机猜测的基线。
May, 2023
我们介绍并开源了我们的数学推理 LLMs InternLM-Math,它是从 InternLM2 继续预训练的,将序列到序列格式中的思维链推理、奖励建模、形式推理、数据增强和代码解释器统一起来,监督我们的模型成为一个多功能的数学推理者、验证者、证明者和扩充器。我们的预训练模型在各种非正式和正式基准测试中,包括 GSM8K、MATH、匈牙利数学考试、MathBench-ZH 和 MiniF2F,在即时学习、监督微调和代码辅助推理的环境设置下,取得了最先进的性能,MiniF2F 测试集上实现了 30.3 的成绩。我们进一步探索了如何使用 LEAN 解决数学问题,并研究了在多任务学习的环境设置下的性能,这表明了使用 LEAN 作为数学问题求解和证明的统一平台的可能性。我们的模型、代码和数据已在 https://github.com/InternLM/InternLM-Math 上发布。
Feb, 2024
利用公开可获得的网络数据和 Group Relative Policy Optimization(GRPO)提高 DeepSeekMath 7B 的数学推理能力,使其在 MATH 基准上达到了 51.7% 的竞争水平,并接近了 Gemini-Ultra 和 GPT-4 的性能水平。
Feb, 2024