Mar, 2024

LHMKE:用于中文大语言模型的大规模综合多学科知识评估基准

TL;DRLHMKE是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题,涵盖30个学科的75个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明,LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。