Jul, 2023

FLASK:基于对齐技能集的细粒度语言模型评估

TL;DR基于技能集的细粒度语言模型评估FLASK,通过分解粗粒度评分到实例级的技能集级别,能够更准确地衡量模型性能并通过分析使语言模型在特定技能方面更加熟练。