本文提出了单元依赖图(UDG)的概念,并介绍了一种归纳UDGs的分解模型。使用UDGs可以减少算术单词问题的解算错误率到10%以上,同时使系统更能适应新词汇和方程形式。
Dec, 2016
通过生成答案原理,我们间接监督程序学习,从而解决代数字问题。
May, 2017
本研究在大规模数据集上探讨数据驱动的技术来解决数学应用题,发现调整良好的神经方程分类器在这些数据集上的表现优于序列到序列和自我关注等更复杂的模型。虽然完全数据驱动的模型表现出一定的潜力,但语义和世界知识是进一步发展所必需的,这是通过我们的错误分析所表明的。
Apr, 2018
该研究探讨了自动解决数学问题的挑战,包括语言和逻辑之间的语义鸿沟,综述了将人工智能用于代数和几何问题的主要技术及其性能,并探讨未来的研究方向。
Aug, 2018
本文提出了一种将小学代数单词问题转化为正式语言A-IMP的程序的流程,使用自然语言处理工具将问题分解成句子片段,然后按照头动词和句子结构将函数分类,在文本中提取函数签名和参数,使用依赖解析,取得了整个流程的可用实现。
Mar, 2020
本文介绍了一种采用属性语法表示情景模型的代数故事问题求解器(SMART),它通过信息提取模块从问题文本中提取节点、属性和关系,然后根据预定义的属性语法生成解析图,并提出了一种迭代学习策略,以进一步提高模型的性能,并通过严格研究此任务来改进模型在此任务上的性能。我们的模型在较复杂的问题上也表现出了优异的泛化能力。
Dec, 2020
本研究通过使用预训练的大型语言模型,提出了一种灵活的错误分类方法,可以对更多的学生回答的数学问题进行分类,并分析了该方法的常见分类错误和自动错误分类的局限性。
May, 2023
使用数据生成方法和符号代数,对变换器编码器的数学推理和泛化进行了200,000个例子的超大规模实验,并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明,扰动严重影响性能,并且可以将F1分数降至低于17%,这表明推理主要由与数学运算的深层理解无关的表层模式所支配。
该研究构建了一个新的中文数据集CARP,测试了四个有思考提示的LLMs,发现它们容易在解决方案的早期步骤中犯错误,因此提出了一个新的基于工具接口的方法DELI,该方法在CARP和其他六个数据集上的实验结果表明DELI大多优于竞争基线,能够进一步提高现有的CoT方法的性能。
Jun, 2023
我们提出了CHAMP数据集,该数据集包含高中数学竞赛问题,注释了概念和提示,使我们能够探索额外信息对模型性能的影响,发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案,并且大多数模型在验证这些解决方案时遇到困难。
Jan, 2024