Dec, 2023

当下现状?对多指令语言模型评估的呼吁

TL;DR通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。