一个神经网络通过程序综合和少样本学习在人类水平上解决、解释和生成大学数学问题
Drori 等人(2022 年)使用符号代数包 Sympy 而非神经网络解决了大学数学问题,并通过计划合成和少量学习回答了 81%的问题,此外,它的 “解释” 仅是代码行的改写且在某些情况下似乎使用测试语料库中给定的答案来指导其解决问题的步骤。
Aug, 2022
我们提出了一种方法,通过对开源语言模型进行微调,使其能够使用代码进行建模,并推导出数学方程,从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法,称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型,一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是,MathCoder 模型在 MATH(45.2%)和 GSM8K(83.9%)数据集上取得了开源语言模型的最新得分,远远超过其他开源方案。值得注意的是,MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2,还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。
Oct, 2023
研究评估了使用数据增强、后处理和代码生成模型 CodeT5 合成数学程序的效果,通过应用线性规划规则来评分和纠正光束,该方法基于自然语言规范实现自动化建模。实验结果表明,在使用这些增强方法后,CodeT5 基础版本的执行准确率为 0.73,明显优于 ChatGPT 的零 - shot 执行准确率 0.41 和 Codex 的 0.36。
Mar, 2023
我们的研究表明,基于预训练文本的大型语言模型(LLM)不仅可以解决纯数学问题,还可以解决物理问题 - 即基于某些先前的物理知识进行计算和推理的问题。我们收集和注释了第一个物理问题数据集 - PhysQA,其中包含 1000 多个初中物理问题(关于运动学、质量和密度、力学、热学、电学)。然后我们使用 OpenAI 的 GPT3.5 生成了这些问题的答案,发现 GPT3.5 能够以零样本学习解决 49.3%的问题,以少样本学习解决 73.2%的问题。这个结果表明,通过使用类似问题及其答案作为提示,LLM 可以解决接近人类水平的初级物理问题。除了自动解决问题,GPT3.5 还可以总结问题涉及的知识或主题,生成相关的解释,并根据输入问题合成新的物理问题。我们的研究是首次在多种类型和场景下自动解决、解释和生成物理问题,我们获得了令人满意和领先水平的准确性,这表明了在中等教育领域中 LLM 进一步应用的潜力。
Sep, 2023
本文提出了一个神经网络模型,基于编码器 - 解码器框架,利用自然语言理解桥接语义世界和符号世界,自动解决数学应用问题,并在 Math23K 数据集上验证模型的有效性。
Nov, 2018
基于 GPT-4 的数据合成能力,我们提出了一种通过训练小型语言模型来合成数学问题,以高效生成足够高质量的预训练数据的有效方法,并在数学推理数据集上展现了最先进的性能。
May, 2024
MathGenie 是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从 7B 到 70B 范围的预训练模型,形成了 MathGenieLM 系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是 MathGenieLM-InternLM2 在 GSM8K 上达到了 87.7%的准确率,在 MATH 上达到了 55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
基于神经网络的自动数学问题求解器在解决算术问题方面成功地达到了 70-80%的准确率,然而研究表明这些求解器可能依赖表面模式得到方程。为了确定数学问题求解器使用哪些信息生成解答,我们移除输入的一部分并测量模型对扰动数据集的表现。结果表明,当给出无意义问题时,即使从输入中删除许多单词,模型也不敏感并仍能找到正确答案。这表明自动求解器并不遵循数学问题的语义逻辑,可能过拟合于特定单词的存在。
Jul, 2023
介绍了一种新的 MATH 数据集,其中包含 12500 个具有挑战性的竞赛数学问题,每个问题都有全面的解决方案,可以用于教模型生成答案推导和解释。尽管研究者不断增加 Transformer 模型的预算和参数总数,但在 MATH 的准确性仍然相对较低,因此未来的研究可能需要更广泛的算法进步。
Mar, 2021
本文提出了使用 Transformer 网络将数学问题转化为等价的前缀、中缀和后缀表达式,并使用预训练的通用文本语料库进行训练以提高性能,与以往最先进的方法相比,最好的神经网络方法可将准确率平均提高近 10%。
Dec, 2019