BriefGPT.xyz
大模型
Ask
alpha
关键词
matt benchmark
搜索结果 - 1
LLM 不是智能思考者:引入数学主题树基准评估来全面评估 LLMs
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了 1,958 个关于
→
PDF
a month ago
Prev
Next