BriefGPT.xyz
大模型
Ask
alpha
关键词
multitask accuracy
搜索结果 - 3
M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准
这篇论文介绍了 M3KE 评估标准,它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比,研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率,比其他中文语言模型表
→
PDF
a year ago
测量大规模多任务中文理解
本文提出了一个测试大规模中文语言模型多任务准确性的方法,测试涵盖医学、法律、心理学和教育等四个主要领域,在医学和教育领域共包含 15 个子任务和 8 个子任务。测试表明,在零样本情况下,表现最好的模型平均优于表现最差的模型近 22 个百分点
→
PDF
a year ago
ICLR
测量大规模多任务语言理解
论文提出了一种新的测试方法,以测量文本模型的多任务准确性,涵盖了包括数学、历史、计算机科学、法律等 57 项任务,为了达到高准确性,模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度,我们的测试可以用于分
→
PDF
4 years ago
Prev
Next