BriefGPT.xyz
Ask
alpha
关键词
pythonio
搜索结果 - 1
多项选择题是高效且稳健的 LLM 评估器
我们提出了 GSM-MC 和 MATH-MC 两个多项选择(MC)数据集,通过收集来自 50 多个开源模型对 GSM8K 和 MATH 的答案和错误预测构建。通过广泛的实验,我们展示了 LLMs 在这两个受欢迎基准测试的多项选择版本上的表现
→
PDF
2 months ago
Prev
Next