OpenWebMath：一个高质量数学网页文本开放数据集

Oct, 2023

OpenWebMath：一个高质量数学网页文本开放数据集

OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text

Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba

TL;DR通过基于大规模数学文档的预训练，提高大型语言模型的推理能力并引入一个开放的数学网页数据集，从而促进大型语言模型的推理能力的进展。

Abstract

There is growing evidence that pretraining on high quality, carefully thought-out tokens such as code or mathematics plays an important role in improving the reasoning abilities of large language models. For exam

pretraining quantitative reasoning open dataset mathematical webpages reasoning abilities

发现论文，激发创造

OpenMathInstruct-1：一个 180 万数学指导调优数据集

利用合成数据集训练大型语言模型（LLMs）的巨大潜力已被展示，尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新，通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMathInstruct-1，并在 GSM8K 和 MATH 两个热门数学推理基准上取得了与最佳 gpt - 蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和 OpenMathInstruct-1 数据集。

Feb, 2024

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

自动数学文本：利用语言模型进行数学文本的自主数据选择

通过利用基础语言模型进行自主数据选择，改进语言模型在数学推理方面的能力，我们引入了一种创新的策略。该策略利用元提示语言模型作为零 - shot 验证器，自主评估和选择高质量的数学内容。我们发布了一个经过筛选的开源 AutoMathText 数据集，包含超过 200GB 的数据。我们将 7B 参数的 Mistral 语言模型连续预训练于 AutoMathText 数据集上，与以前的连续预训练工作相比，下游性能显著提高，并且标记数量大幅减少。我们的方法比基准方法提高了 2 倍的预训练标记效率，突显了我们方法在增强模型数学推理能力方面的潜力。AutoMathText 数据集可在此 https URL 获取，代码可在此 https URL 获取。

Feb, 2024

元数学：为大型语言模型建立自己的数学问题

我们提出了一个名为 MetaMath 的精细调整的语言模型，专注于数学推理，实验证明 MetaMath 在数学推理方面表现优于开源语言模型。

Sep, 2023

使用数学数据集衡量数学问题解决能力

介绍了一种新的 MATH 数据集，其中包含 12500 个具有挑战性的竞赛数学问题，每个问题都有全面的解决方案，可以用于教模型生成答案推导和解释。尽管研究者不断增加 Transformer 模型的预算和参数总数，但在 MATH 的准确性仍然相对较低，因此未来的研究可能需要更广泛的算法进步。

Mar, 2021

使用网络数据，仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

本文表明，即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型，其训练数据量可以达到万亿级别，不需要过多地依赖于高质量的非网络数据的训练数据集。

Jun, 2023

生成数学 AI：第一部分 --MathPile：一个十亿词级别的数学预训练语料库

该研究介绍了 MathPile，这是一个高质量、大规模的数学专注语料库，包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作，确保了语料库的高质量。此外，还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力，并计划开源不同版本的 MathPile 以及用于处理的脚本，以促进该领域的未来发展。

Dec, 2023

TheoremQA：基于定理的问答数据集

本文介绍了一个以定理驱动的问答数据集 TheoremQA，用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA，并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的，达到了 51％，而现有的所有开放源代码模型都低于 15％，仅仅超过了随机猜测的基线。

May, 2023

InternLM-Math: 面向可验证推理的开放数学大语言模型

我们介绍并开源了我们的数学推理 LLMs InternLM-Math，它是从 InternLM2 继续预训练的，将序列到序列格式中的思维链推理、奖励建模、形式推理、数据增强和代码解释器统一起来，监督我们的模型成为一个多功能的数学推理者、验证者、证明者和扩充器。我们的预训练模型在各种非正式和正式基准测试中，包括 GSM8K、MATH、匈牙利数学考试、MathBench-ZH 和 MiniF2F，在即时学习、监督微调和代码辅助推理的环境设置下，取得了最先进的性能，MiniF2F 测试集上实现了 30.3 的成绩。我们进一步探索了如何使用 LEAN 解决数学问题，并研究了在多任务学习的环境设置下的性能，这表明了使用 LEAN 作为数学问题求解和证明的统一平台的可能性。我们的模型、代码和数据已在 https://github.com/InternLM/InternLM-Math 上发布。

Feb, 2024

DeepSeekMath：推动开放语言模型中数学推理的极限

利用公开可获得的网络数据和 Group Relative Policy Optimization（GRPO）提高 DeepSeekMath 7B 的数学推理能力，使其在 MATH 基准上达到了 51.7% 的竞争水平，并接近了 Gemini-Ultra 和 GPT-4 的性能水平。

Feb, 2024