超越基准测试：大型语言模型评估和评估的新范式

Jul, 2024

Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models

Jin Liu, Qingquan Li, Wenlong Du

TL;DR我们提出了一种新的大语言模型（LLMs）测评范式——Benchmarking-Evaluation-Assessment，将LLMs的评估位置从“考试室”转移到“医院”，通过对LLMs进行“体检”，利用特定任务解决作为评估内容，深入分析LLMs存在的问题，并为优化提供建议。

Abstract

In current benchmarks for evaluating large language models (LLMs), there are issues such as evaluation content restriction, untimely updat