Apr, 2025

大型语言模型中的复杂推理生成评估

TL;DR本研究解决了大型语言模型(LLMs)是否真正具备推理能力的关键问题,提出了一种名为KUMO的生成评估框架,该框架结合LLMs与符号引擎,动态生成多样的推理任务以评估其推理能力。研究结果显示,许多LLMs在简单推理任务上的表现超过了大学生水平,而在复杂推理挑战中则达到了大学生的表现,证明KUMO作为评估LLMs推理能力的重要工具的有效性。