Jul, 2024

超越基准测试:大型语言模型评估和评估的新范式

TL;DR我们提出了一种新的大语言模型(LLMs)测评范式——Benchmarking-Evaluation-Assessment,将LLMs的评估位置从“考试室”转移到“医院”,通过对LLMs进行“体检”,利用特定任务解决作为评估内容,深入分析LLMs存在的问题,并为优化提供建议。