关键词mathematical capabilities
搜索结果 - 3
- MathBench:利用分层数学基准评估 LLMs 的理论和应用水平
通过 MathBench 新的基准测试,我们能够全面评估大型语言模型在数学能力方面的表现,首次提供了一个多维度视角,从基础算术到大学数学的不同阶段评估模型的能力,旨在提高对大型语言模型在数学能力方面的评估,为其知识水平和问题解决技能提供更深 - 常见七 B 语言模型已经具备强大的数学能力
LLaMA-2 7B 模型通过简单的方法扩展数据样本,证明了其出色的数学能力及可靠性,适用于 GSM8K 和 MATH 基准测试,并提供了关于不同推理复杂性和错误类型的扩展行为的见解。
- ChatGPT 的数学能力
本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比,发现其数学能力显著低于普通数学研究生,并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。