注释衍生物：代数文字问题新的评估策略和数据集

Sep, 2016

注释衍生物：代数文字问题新的评估策略和数据集

Annotating Derivations: A New Evaluation Strategy and Dataset for Algebra Word Problems

Shyam Upadhyay, Ming-Wei Chang

TL;DR本文提出了一种新的自动求解代数问题评估方法——基于导出式的评估，可以识别现有评估揭示的错误，并通过导出式检查等算法向现有数据集中加入导出式注释，经实验证明，使用此方法的自动求解算法评估更为准确，我们已经发布了2300个代数单词问题的导出式注释以供未来评估。

Abstract

We propose a new evaluation for automatic solvers for algebra word problems, which can identify reasoning mistakes that existing evaluatio

发现论文，激发创造

单位依赖图及其在算术问题求解中的应用

本文提出了单元依赖图（UDG）的概念，并介绍了一种归纳UDGs的分解模型。使用UDGs可以减少算术单词问题的解算错误率到10％以上，同时使系统更能适应新词汇和方程形式。

Dec, 2016

通过原理生成进行程序归纳：学习解决和解释代数性文字问题

通过生成答案原理，我们间接监督程序学习，从而解决代数字问题。

May, 2017

基于数据驱动的代数文字问题解决方法

本研究在大规模数据集上探讨数据驱动的技术来解决数学应用题，发现调整良好的神经方程分类器在这些数据集上的表现优于序列到序列和自我关注等更复杂的模型。虽然完全数据驱动的模型表现出一定的潜力，但语义和世界知识是进一步发展所必需的，这是通过我们的错误分析所表明的。

Apr, 2018

语义解析的瓶颈：自动数学题解决方案的调查

该研究探讨了自动解决数学问题的挑战，包括语言和逻辑之间的语义鸿沟，综述了将人工智能用于代数和几何问题的主要技术及其性能，并探讨未来的研究方向。

Aug, 2018

从代数语言问题到程序：一种规范化方法

本文提出了一种将小学代数单词问题转化为正式语言A-IMP的程序的流程，使用自然语言处理工具将问题分解成句子片段，然后按照头动词和句子结构将函数分类，在文本中提取函数签名和参数，使用依赖解析，取得了整个流程的可用实现。

Mar, 2020

SMART：基于属性文法的代数故事问题情境模型

本文介绍了一种采用属性语法表示情景模型的代数故事问题求解器（SMART），它通过信息提取模块从问题文本中提取节点、属性和关系，然后根据预定义的属性语法生成解析图，并提出了一种迭代学习策略，以进一步提高模型的性能，并通过严格研究此任务来改进模型在此任务上的性能。我们的模型在较复杂的问题上也表现出了优异的泛化能力。

Dec, 2020

运用大型语言模型进行代数错误分类

本研究通过使用预训练的大型语言模型，提出了一种灵活的错误分类方法，可以对更多的学生回答的数学问题进行分类，并分析了该方法的常见分类错误和自动错误分类的局限性。

May, 2023

使用 Transformers 进行数学推理系统评估的符号框架

使用数据生成方法和符号代数，对变换器编码器的数学推理和泛化进行了200,000个例子的超大规模实验，并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明，扰动严重影响性能，并且可以将F1分数降至低于17％，这表明推理主要由与数学运算的深层理解无关的表层模式所支配。

May, 2023

评估和改进工具增强的计算密集型数学推理

该研究构建了一个新的中文数据集CARP，测试了四个有思考提示的LLMs，发现它们容易在解决方案的早期步骤中犯错误，因此提出了一个新的基于工具接口的方法DELI，该方法在CARP和其他六个数据集上的实验结果表明DELI大多优于竞争基线，能够进一步提高现有的CoT方法的性能。

Jun, 2023

CHAMP：一个用于深入分析LLM数学推理能力的竞赛级数据集

我们提出了CHAMP数据集，该数据集包含高中数学竞赛问题，注释了概念和提示，使我们能够探索额外信息对模型性能的影响，发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案，并且大多数模型在验证这些解决方案时遇到困难。

Jan, 2024