本研究探索了大型语言模型(LLMs)解决长篇数学问题的能力,引入了扩展的小学数学(E-GSM)问题集并提出了新的度量方法,旨在改善 LLMs 在解决这类问题上的表现。研究结果表明,所提出的方法不仅在 E-GSM 上取得了改善,还具有一定的推广性,为将 LLMs 应用于复杂的现实应用提供了实际解决方案,并为模型广泛性和训练方法的进一步探索开辟了新的途径。
May, 2024
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面对对抗性信息时仍然存在困难,导致性能下降。
该论文提出了一种用于解决数学问题的框架,该框架基于生成问题文本的语言变体,利用 DeBERTa 编码器构建解决方案表达式,通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。
Jun, 2023
该研究分析了现有的 NLP 求解器在解决低年级英语数学问题时的表现,指出现有求解器主要依赖于表面浅显的启发式策略。同时,研究提出了一个挑战数据集 SVAMP,并证明当前最优模型的表现还有很大的提升空间。
Mar, 2021
本文探讨了跨语言和多语言下的数学应用问题,使用预训练的多语言模型构建模型,并使用序列到序列模型进行求解。通过比较跨语言和多语言场景下数学应用问题的求解情况,表明将模型迁移到不同的语言上可能会导致性能下降,但如果问题类型存在于源语言和目标语言中,则其性能可以得到完善提升。
May, 2021
通过 MathAttack 模型对数学问题进行逻辑实体识别和词级攻击,证明了 LLMs 的数学解决能力容易受到攻击,特别是在复杂数学问题方面的鲁棒性较差。
Sep, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
本研究论文从近十年开始,对自动解决数学单词问题的算法进行了批判性评估和未来研究规划,主要关键词为数学单词问题、算法、深度学习模型、数据集设计和研究。
May, 2022
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
本文提出了一种新颖的数学语文问题生成方法,该方法结合了预训练的语言模型和上下文关键词选择模型,以提高所生成的数学语文问题的语言质量;而使用数学公式一致性约束来提高所生成的数学语文问题的数学有效性。经过大量的定量和定性实验,我们的方法相比各种基线方法都具有更好的性能。
Sep, 2021