该研究提供了一个数据集,用于训练能够构建基于知识图谱的交互叙事世界模型的学习代理。数据集包含了 24198 个富自然语言观察和知识图谱之间的映射,以及多个流派的 27 个游戏中的训练数据和 9 个附加的游戏中包含的 7836 项测试集等内容。此外,研究还提供了基于规则、问答和序列学习方法的基线模型以及数据分析。
Jun, 2021
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定,使用游戏状态的图形表示来训练模型,可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型,发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性,即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。
Jan, 2023
使用语言模型自动生成的 K-8 数学题库,通过定期优化和专家标注的数据,得到了迄今规模最大的英语数学题库,其中有 20,490 个问题,其中 3,484 个经过领域专家评分,发现 MATHWELL 比其他方法生成的问题更容易求解、准确和适用,有 74% 的问题有可解答的解决方案,并满足所有标准。
Feb, 2024
本研究论文从近十年开始,对自动解决数学单词问题的算法进行了批判性评估和未来研究规划,主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。
May, 2022
该论文提出了一种用于解决数学问题的框架,该框架基于生成问题文本的语言变体,利用 DeBERTa 编码器构建解决方案表达式,通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。
Jun, 2023
大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。
Jun, 2024
本研究提出了一种通过神经网络模型从常识知识图谱和方程式中生成多样化数学单词问题的方法,并在教育评估方面表现出优越性,其中自规划模块实现了方程和常识知识信息的自动融合。
Oct, 2020
本文探讨了将自然语言描述的概念转换成数学表达式的声明性规则,并提出了一种将此类声明性知识纳入解决数学问题的框架。通过学习如何选择与解决方案表达式的每个操作相关的声明性知识,实现了将算术单词问题文本映射到数学表达式,同时支持答案表达式的可解释性。实验评估表明,基于领域知识的求解器优于其他所有系统,并且在训练数据与测试数据偏向不同的实际情况下更具有普适性。
Dec, 2017
该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现,指出现有求解器主要依赖于表面浅显的启发式策略。同时,研究提出了一个挑战数据集 SVAMP,并证明当前最优模型的表现还有很大的提升空间。
Mar, 2021