Jun, 2024

大型语言模型的事实记忆尺度定律

TL;DR通过分析大型语言模型(LLM)事实知识和 LLM 记忆不同类型事实的行为的扩展规律,我们发现 LLMs 的事实知识容量与模型规模和训练周期呈线性和负指数关系,认为 LLMs 用于记忆全部公共事实在普通预训练设置下几乎不切实际。与此同时,我们发现 LLMs 能够推广未见事实知识,并且其扩展规律类似于普通预训练。我们还分析了 LLMs 事实记忆的兼容性和偏好,结果表明 LLMs 在以统一方式记忆冗余事实时遇到困难,并且仅当相关事实具有相同的方向和结构时,LLM 才能兼容地记忆它们。此外,LLM 更关注记忆更频繁和更困难的事实,并且后续的事实可以覆盖先前事实的记忆,这严重阻碍了低频事实的记忆。我们发现了 LLMs 事实知识学习的容量和特点,为 LLMs 事实知识增强提供了方向。