MAmmoTH: 通过混合指导调整构建数学通才模型
我们提出了一种新的方法,通过从预训练的网络语料库中高效地收集 1000 万条自然存在的指导数据来增强大型语言模型 (LLMs) 的推理能力,从而显著提高了模型在推理基准测试中的性能,并在多个推理和聊天机器人基准测试中获得了最先进的性能。
May, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
我们提出了一种结合外部工具和数据增强的方法,并采用两阶段的训练策略,以实现数学推理能力的增强。经过大量实验证明,我们的方法在数学推理任务上取得了新的最佳性能。
May, 2024
利用合成数据集训练大型语言模型(LLMs)的巨大潜力已被展示,尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新,通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMathInstruct-1,并在 GSM8K 和 MATH 两个热门数学推理基准上取得了与最佳 gpt - 蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和 OpenMathInstruct-1 数据集。
Feb, 2024
通过多语言推理一致性研究,我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH,然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性,并且在性能上优于或与更大规模的闭源和开源模型相媲美。
Jun, 2024
介绍了利用大型语言模型进行指令调优的最新进展,提出了一种双向指令调优策略,通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明,这种策略适用于多种数学推理任务并具有领域通用性。
Mar, 2024
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
通过训练语言模型生成与算数问题相关的后缀表达式,并将其与小型预训练模型结合,将令牌嵌入转化为真实稠密数字,通过深度学习平台的本地函数获得正确答案。最后,通过提示注入将小型模型的结果输出添加到语言模型中,从而增强了语言模型的算数能力。
Nov, 2023