BriefGPT.xyz
Ask
alpha
关键词
math problem-solving benchmarks
搜索结果 - 1
挑战 LLMs 的推理能力:揭示 LLMs 中的认知深度的基准测试
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的
→
PDF
6 months ago
Prev
Next