Oct, 2024
GSM-Symbolic:理解大型语言模型中数学推理的局限性
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in
Large Language Models
TL;DR本研究针对大型语言模型(LLMs)在数学推理能力上的不足,通过引入GSM-Symbolic基准,解决了现有评估的局限性,提供了更可靠的度量指标。研究发现,尽管LLMs在GSM8K基准测试上表现改进,但其真实的数学推理能力仍然不佳,特别是在问题中添加额外条款时性能急剧下降。这一发现为理解LLMs的能力和限制提供了新的视角。