Jul, 2024
评估大型语言模型的系统调查与批判性综述:挑战、局限性与建议
A Systematic Survey and Critical Review on Evaluating Large Language
Models: Challenges, Limitations, and Recommendations
Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan...
TL;DR大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。