BriefGPT.xyz
Ask
alpha
关键词
deep in-domain knowledge
搜索结果 - 1
LLM 们已经足够先进了吗?一个为大型语言模型提供挑战性问题解决基准的测试
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-C
→
PDF
a year ago
Prev
Next