Oct, 2024
量化大型语言模型的泛化复杂性
Quantifying Generalization Complexity for Large Language Models
TL;DR本研究针对大型语言模型(LLMs)在泛化能力与记忆之间的纠缠问题,提出了新颖的Scylla动态评估框架,通过在5个复杂度级别上的20个任务中量化评估模型对分布内(ID)和分布外(OOD)数据的表现。研究发现,任务复杂性与ID与OOD数据表现差距之间的非单调关系揭示了所谓的“泛化谷”,指出LLMs的泛化能力存在上限,并表明随着模型规模的增大,能处理更复杂任务的临界复杂度也随之提高。