映射为声明性知识以解决数学应用题

ACLDec, 2017

映射为声明性知识以解决数学应用题

Mapping to Declarative Knowledge for Word Problem Solving

Subhro Roy, Dan Roth

TL;DR本文探讨了将自然语言描述的概念转换成数学表达式的声明性规则，并提出了一种将此类声明性知识纳入解决数学问题的框架。通过学习如何选择与解决方案表达式的每个操作相关的声明性知识，实现了将算术单词问题文本映射到数学表达式，同时支持答案表达式的可解释性。实验评估表明，基于领域知识的求解器优于其他所有系统，并且在训练数据与测试数据偏向不同的实际情况下更具有普适性。

Abstract

Math word problems form a natural abstraction to a range of quantitative reasoning problems, such as understanding financial news, sports results, and casualties of war. Solving such problems requires the understanding of several mathematical concepts such as →

mathematics word problems declarative knowledge quantitative reasoning dimensional analysis

发现论文，激发创造

学会演绎推理：将数学问题解决视为复杂关系提取

提出了一种基于复杂关系提取的数学问题求解方法，通过可解释的演绎推理步骤构建目标表达式，实现了更准确且可理解的问题求解。

Mar, 2022

通过生成问题语句的语言变体来求解数学应用题

该论文提出了一种用于解决数学问题的框架，该框架基于生成问题文本的语言变体，利用 DeBERTa 编码器构建解决方案表达式，通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。

Jun, 2023

解决和推理数学应用问题的语义对齐方程生成

本文提出了一个神经网络模型，基于编码器 - 解码器框架，利用自然语言理解桥接语义世界和符号世界，自动解决数学应用问题，并在 Math23K 数据集上验证模型的有效性。

Nov, 2018

通过将语言模型与符号求解器相结合解决数学语言问题

通过将大型语言模型与外部符号求解器相结合，我们提出了一种能够将单词问题逐步规范化为一组变量和方程的方法，并使用符号求解器解决问题，相较于 PAL 在解决代数类问题上性能提升了 20%。

Apr, 2023

解决一般算术问题

本文介绍了一种新的自动解决算术词问题的方法，它是第一种能够处理多步骤和多操作算术问题的算法方法，不依赖于附加的注释或预定义的模板。作者提出了一种表达式树的理论，可以用于表示和评估目标算术表达式，并将其唯一分解为多个分类问题；然后，作者采用受限推理框架将这些问题组合成表达式树，并通过 “数量模式” 提升模型表现，实验结果表明，该方法在算术词问题的基准数据集上实现了业界领先的性能。

Aug, 2016

走向可行的数学推理：解决数学应用题的挑战、策略和机遇

研究了解决自然语言描述的数学问题的非神经和神经方法，并突出了这些方法具有可泛化、数学合理、可解释和可解释的能力，提出使用外部知识和知识渗透学习的需求和机会。

Oct, 2021

提升神经数学问题求解器的技术

该研究提出了一种基于编码器 - 解码器的模型，完全利用问题文本并保留逐步的交换律，以产生无论数量的排列方式如何都具有不变性的表达式嵌入，并进一步对问题文本进行编码以指导解码过程，可以提高数学问题自动求解程序的性能。

Feb, 2023

Recall and Learn: 数学问题记忆增强求解器

本文介绍了一种人类模拟学习的方法，利用记忆模块、表征模块、类比模块和推理模块来解决数学文字题，实验结果表明该算法比其他现有算法表现更好。

Sep, 2021

利用细分至粗分的抽象和推理方法解决数学应用问题

本文提出一种 fine-to-coarse 建模方法来解决数学单词问题，通过迭代地组合低级操作数以预测高级操作符来抽象问题并从底向上推理解决运算符，从而更好地捕捉本地细粒度信息和全局逻辑结构。使用 Math23k 和 SVAMP 数据集进行的广泛评估证明了我们方法的准确性和鲁棒性。

May, 2022

KnowledgeMath: 知识密集型金融领域数学问题求解

KnowledgeMath 是一个新颖的基准，旨在评估 LLMs 在应用财务知识解决复杂数学问题方面的能力。该研究包含 1,259 个问题，结合了文本和表格内容，需要大学水平的财务领域知识进行有效解决。我们提供了以 Python 程序格式的专家注释详细解决方案，为 LLM 评估提供高质量的基准。与以往研究相比，我们评估了 14 个具有不同提示策略的 LLMs 范围。最佳系统（即 Program-of-Thoughts 的 GPT-4）仅达到 45.4% 的准确率，仍有很大的改进空间。我们相信 KnowledgeMath 可以促进未来关于领域特定知识检索和增强到数学问题解决过程中的研究。我们将在此 https URL 发布基准和代码。

Nov, 2023