Nov, 2023

GPQA:一份应届毕业生可接受且无需谷歌验证的问答基准

TL;DRGPQA 是一个由生物学、物理学和化学领域的专家编写的高难度的 448 个多选题的数据集,通过验证人员的准确性测试和对最先进的 AI 系统的测试表明这些问题对于非专家和 AI 系统来说都具有一定难度,因此需要开发可扩展的监督方法以提供人类对 AI 系统进行可靠监督和获取可靠信息的能力。