Jun, 2023

Xiezhi:一种全面领域知识评估的不断更新基准

TL;DR我们提出了 Xiezhi,这是最全面的评估套件,包括了 516 个不同学科的 220,000 个多项选择题,旨在为检验大型语言模型的整体域知识提供帮助,并在新的自然语言处理基准中,对 47 个先进的大型语言模型进行了评估,它们在科学、工程、农学、医学和艺术领域超过了人类的平均表现,但在经济学、法学、教育学、文学、历史和管理学方面表现不佳。