Feb, 2024

FAC$^2$E:通过区分语言和认知来更好地理解大型语言模型的能力

TL;DRFAC$^2$E 是一个针对大型语言模型 (LLMs) 的能力评估框架,通过提取 LLMs 的中间推理,将特定能力应用过程分解为三个子步骤,并评估每个细分能力的各个子步骤,从而全面区分 LLMs 的语言相关能力和认知相关能力。利用 FAC$^2$E,我们发现模型中知识利用方面存在常见不足,并提出了一种简单、知识增强的方法来缓解这个问题。我们的研究不仅展示了有希望的性能改进,还为未来 LLMs 的发展方向提供了启示。