COLINGMar, 2024

LHMKE:用于中文大语言模型的大规模综合多学科知识评估基准

TL;DRLHMKE 是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题,涵盖 30 个学科的 75 个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对 11 个中文大型语言模型进行了零 - shot 评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了 GPT-4 是否能够自动评分主观预测。我们的研究结果表明,LHMKE 是一个具有挑战性和先进性的中文大型语言模型评估标准。