大型语言模型对数学问题中的不合理性无意识

Mar, 2024

大型语言模型对数学问题中的不合理性无意识

Large Language Models Are Unconscious of Unreasonability in Math Problems

Jingyuan Ma, Damai Dai, Zhifang Sui

TL;DR大型语言模型在解决数学问题方面具有重大能力，但在面对包含不合理错误的问题时倾向于产生幻觉。本文研究了 LLM 在面对不合理数学问题时的行为，并进一步探讨了它们解决这些问题的潜力。实验表明，LLM 能够检测到不合理错误，但在生成非幻觉性内容方面仍然失败。为了提高它们的错误检测和修正能力，我们设计了一种战略提示模板，称为 Critical Calculation and Conclusion（CCC）。借助 CCC，LLM 可以更好地自我评估和检测数学问题中的不合理错误，使其在实际应用场景中更可靠和安全。

Abstract

large language models (LLMs) demonstrate substantial capabilities in solving math problems. However, they tend to produce hallucinations when given questions containing unreasonable errors. In this paper, we stud

large language models unreasonable math problems error detection hallucinations critical calculation and conclusion

发现论文，激发创造

基于无法回答的数学问题对大型语言模型中的幻象进行基准测试

使用非可回答的数学问题 (UMWP) 的数据集和文本相似度与数学表达式检测相结合的方法，评估了大型语言模型 (LLMs) 在问答任务中的幻觉问题，并通过对 31 个 LLM 进行广泛实验的结果表明，上下文学习和人工反馈强化学习 (RLHF) 训练可以明显提高模型避免幻觉的能力。

Mar, 2024

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Oct, 2023

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

初学者学习者与专家导师：评估具有误解的大型语言模型的数学推理能力

我们提出了一种基于数学误解的大型语言模型（LLM）数学推理能力的新评估方法。我们通过模拟 LLMs 作为初学者和专家导师，旨在识别由于特定误解导致的错误答案，并识别一个错误答案背后的误解。与传统基于 LLMs 的数学评估侧重于正确回答数学问题不同，我们的方法受到教育学习科学原则的启发。我们要求 LLMs 明确地模仿初学者通过基于不完整知识的特定错误方式回答问题，并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验，我们发现，尽管 LLMs 可以轻松正确回答这些问题，但它们难以识别：1）与特定不完整知识（误解）相对应的错误答案；2）解释特定错误答案的误解。我们的研究指出了增强 LLMs 数学推理能力的新机会，尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。

Oct, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

关于运用大型语言模型促进数学学习的三个问题

通过研究大语言模型在教育应用中的潜力，该论文探讨了如何利用大语言模型提供适应性反馈来帮助学生学习数学，并提出了与此相关的挑战。

Oct, 2023