Aug, 2023
核心竞争力视角下的大型语言模型评估调查
Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models
TL;DR从预训练语言模型(PLM)到大型语言模型(LLM),自然语言处理(NLP)领域已经取得了明显的性能提升和广泛的实际应用。为了解决评估LLM的困难,这篇论文调查了关于LLM评估的多篇论文,并总结了LLM的四个核心能力,包括推理、知识、可靠性和安全性。在这个能力结构下,相似的任务被合并以反映相应的能力,而新的任务也可以轻松地添加到系统中。最后,给出了关于LLM评估未来方向的建议。