Aug, 2023

核心竞争力视角下的大型语言模型评估调查

TL;DR从预训练语言模型(PLM)到大型语言模型(LLM),自然语言处理(NLP)领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估 LLM 的困难,这篇论文调查了关于 LLM 评估的多篇论文,并总结了 LLM 的四个核心能力,包括推理、知识、可靠性和安全性。在这个能力结构下,相似的任务被合并以反映相应的能力,而新的任务也可以轻松地添加到系统中。最后,给出了关于 LLM 评估未来方向的建议。