- 揭示致命缺陷:评估 LLM 在数学推理中处理错误的能力
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和 - ACLNUMCoT: 基于大型语言模型的链式思维推理中的数字和计量单位
人类的数字系统和度量单位是两个相互关联的主题,它们与表达这些主题的语言有着相互影响。本文通过构建带有扰动的数据集,研究已有的大型语言模型在处理数字和度量单位时遇到的困难,从语言到数字的数字转换和基于单位的度量转换都是数学问题的不同子过程。实 - 研究 LLM 对数学问题的鲁棒性
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面 - LLM 能更好地解决更长的数学应用题吗?
本研究探索了大型语言模型(LLMs)解决长篇数学问题的能力,引入了扩展的小学数学(E-GSM)问题集并提出了新的度量方法,旨在改善 LLMs 在解决这类问题上的表现。研究结果表明,所提出的方法不仅在 E-GSM 上取得了改善,还具有一定的推 - 由大到小:利用弱监督提炼和提高数学词问题的数学专业知识
通过创新的两阶段框架,从大型到小型语言模型中转移数学专业知识,通过弱监督任务设置解决数学文字问题中标注成本高的挑战,并在降低计算成本的同时,在 Math23K 和 Weak12K 数据集上表现出显著改进的性能。
- ACL数学阅读理解题为何对语言学习者具挑战性?
本文研究了大型语言模型在数学问题中面临的挑战,通过对数学问题的语言和数学特征进行深入分析,并训练基于特征的分类器来理解各个特征对数学问题整体难度的影响,并探讨这是否有助于预测大型语言模型在特定类别的数学问题中的表现。
- FineMath:面向中文大语言模型的细粒度数学评估基准
为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖 - 通过敌对攻击实现抗 LLM 的数学问题生成
在教育领域中,大型语言模型 (LLMs) 的快速发展给当前的剽窃检测工具带来了挑战,本文通过生成拟保持原问题的结构和难度但无法由 LLMs 解决的对抗性示例,来探索确保公平评估的新范式,通过在数学应用问题领域利用抽象语法树生成对抗性实例,改 - MATHWELL:扩展规模下的教育数学问题生成系统
使用语言模型自动生成的 K-8 数学题库,通过定期优化和专家标注的数据,得到了迄今规模最大的英语数学题库,其中有 20,490 个问题,其中 3,484 个经过领域专家评分,发现 MATHWELL 比其他方法生成的问题更容易求解、准确和适用 - 利用大型语言模型扩展 AutoTutor 的创作能力
使用大型语言模型(LLMs)构建智能辅导系统,结合传统教学方法并实现更好的教学成果。
- AAAI数学满分:渐进修正提示
通过 Progressive Rectification Prompting 方法,对 Chain-of-Thought 提示方法进行改进以提高数学问题的平均准确率。
- KnowledgeMath: 知识密集型金融领域数学问题求解
KnowledgeMath 是一个新颖的基准,旨在评估 LLMs 在应用财务知识解决复杂数学问题方面的能力。该研究包含 1,259 个问题,结合了文本和表格内容,需要大学水平的财务领域知识进行有效解决。我们提供了以 Python 程序格式的 - VerityMath: 自校验实现的数学推理与单位一致性的推动
通过定义单位并确保在数学运算过程中单位的一致性,我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs(UCPs)为每个问题开发了一个 - EMNLPATHENA: 数理推理中的思维扩展
使用注意力机制的 THought Expansion Network Architecture (ATHENA) 模型通过模仿人类思维扩展机制中的神经网络传播形式,解决实际世界的数学问题挑战,并在训练示例信息受限的情况下,在各种问题中取得了 - SIGIR数学应用题中的表达式句法信息瓶颈
利用表达式语法信息瓶颈方法(ESIB)和变分信息瓶颈技术,以及自我蒸馏损失函数,提出了一种自动解决数学题的模型,可以去除冗余特征并生成更多样化的解。
- 填空题:探索和增强 LLM 在数学应用问题中倒向推理的能力
本文研究倒向推理任务在数学问题中的应用,并提出了三种新技术以及一种基于贝叶斯公式的集成方法,这些方法显著提高了语言模型在倒向推理任务上的性能。
- 用问题类型分类解决数学应用问题
该论文提出了一种利用集成方法改进数学文字问题求解能力的方法,包括问题类型分类器、基于十折交叉验证和投票机制的集成学习框架以及采用自洽方法提高答案选择的大型语言模型求解器,实验证明这些方法能够改进数学文字问题求解的效果。
- ACL大型语言模型中的符号数学问题推理
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
- KDD基于表达式相似性的数学问题检索器 MWPRanker
本文提出了一种用于检索类似数学单词问题(MWP)的混合方法,该方法参考将同样的操作序列用于解题,通过与语义相似性方法相比,展示了更好的效果。
- ACL可解释的数学问题解决方案生成:通过逐步规划
该研究提出了一种基于逐步规划的中间解决方案生成方法,通过预测所需的数学运算并引导语言模型生成来解决数学单词问题,并在人类评估和自动度量标准上提高了解决方案的准确性和可解释性。