数学故事问题的全球模型

ACLJun, 2023

World Models for Math Story Problems

Andreas Opedal, Niklas Stoehr, Abulhair Saparov, Mrinmaya Sachan

TL;DR本文提出了一个基于图形的语义形式化方法 MathWorld，用于对数学问题进行世界建模，以进一步提高自然语言处理模型的推理和世界建模能力，并且基于该方法，成功生成了新问题并验证了其在其他方面的应用。

Abstract

Solving math story problems is a complex task for students and nlp models alike, requiring them to understand the world as described in the story and reason over it to compute an answer. Recent years have seen im

math story problems nlp models mathworld world modeling abilities logical forms

发现论文，激发创造

文本建模世界

该研究提供了一个数据集，用于训练能够构建基于知识图谱的交互叙事世界模型的学习代理。数据集包含了 24198 个富自然语言观察和知识图谱之间的映射，以及多个流派的 27 个游戏中的训练数据和 9 个附加的游戏中包含的 7836 项测试集等内容。此外，研究还提供了基于规则、问答和序列学习方法的基线模型以及数据分析。

Jun, 2021

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

MATHWELL：扩展规模下的教育数学问题生成系统

使用语言模型自动生成的 K-8 数学题库，通过定期优化和专家标注的数据，得到了迄今规模最大的英语数学题库，其中有 20,490 个问题，其中 3,484 个经过领域专家评分，发现 MATHWELL 比其他方法生成的问题更容易求解、准确和适用，有 74% 的问题有可解答的解决方案，并满足所有标准。

Feb, 2024

自然语言处理模型在初等数学中为何犯错？基于深度学习的解决数学应用题的调查

本研究论文从近十年开始，对自动解决数学单词问题的算法进行了批判性评估和未来研究规划，主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。

May, 2022

通过生成问题语句的语言变体来求解数学应用题

该论文提出了一种用于解决数学问题的框架，该框架基于生成问题文本的语言变体，利用 DeBERTa 编码器构建解决方案表达式，通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。

Jun, 2023

评估生成模型中的世界模型

大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出，揭示了现有生成模型在评估世界模型的经典诊断上表现良好，但度量标准揭示了其世界模型的内在不连贯性和脆弱性，并提出新的评估方法以实现更接近真实逻辑的生成模型。

Jun, 2024

基于常识知识图谱和方程式的数学应用题生成

本研究提出了一种通过神经网络模型从常识知识图谱和方程式中生成多样化数学单词问题的方法，并在教育评估方面表现出优越性，其中自规划模块实现了方程和常识知识信息的自动融合。

Oct, 2020

映射为声明性知识以解决数学应用题

本文探讨了将自然语言描述的概念转换成数学表达式的声明性规则，并提出了一种将此类声明性知识纳入解决数学问题的框架。通过学习如何选择与解决方案表达式的每个操作相关的声明性知识，实现了将算术单词问题文本映射到数学表达式，同时支持答案表达式的可解释性。实验评估表明，基于领域知识的求解器优于其他所有系统，并且在训练数据与测试数据偏向不同的实际情况下更具有普适性。

Dec, 2017

自然语言处理模型真的能够解决简单的数学问题吗？

该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现，指出现有求解器主要依赖于表面浅显的启发式策略。同时，研究提出了一个挑战数据集 SVAMP，并证明当前最优模型的表现还有很大的提升空间。

Mar, 2021