May, 2024

超越模式匹配学习?对 LLM 中的数学理解进行评估

TL;DR通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识,本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训,发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下,某些指令调整导致类似的性能变化,无论培训数据不同,暗示了跨不同技能的领域理解缺乏。