May, 2023

评估大型语言模型在高考基准测试上的表现

TL;DR这篇论文介绍了 GAOKAO-Benchmark,它是一个直观的基准测试,利用中国高考考试的问题作为测试样本,对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率,发现 ChatGPT 模型在解决客观问题方面表现优异,同时也揭示了它的不足之处和改进方向,为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。