语言模型的物理学：第 3.3 部分，知识容量的规模律

Apr, 2024

语言模型的物理学：第 3.3 部分，知识容量的规模律

Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

Zeyuan Allen-Zhu, Yuanzhi Li

TL;DR通过多个受控数据集，我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外，我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。

Abstract

scaling laws describe the relationship between the size of language models and their capabilities. Unlike prior studies that evaluate a model's capability via loss or benchmarks, we estimate the number of knowled

scaling laws language models knowledge storage training duration model architecture

发现论文，激发创造

大型语言模型的事实记忆尺度定律

通过分析大型语言模型（LLM）事实知识和 LLM 记忆不同类型事实的行为的扩展规律，我们发现 LLMs 的事实知识容量与模型规模和训练周期呈线性和负指数关系，认为 LLMs 用于记忆全部公共事实在普通预训练设置下几乎不切实际。与此同时，我们发现 LLMs 能够推广未见事实知识，并且其扩展规律类似于普通预训练。我们还分析了 LLMs 事实记忆的兼容性和偏好，结果表明 LLMs 在以统一方式记忆冗余事实时遇到困难，并且仅当相关事实具有相同的方向和结构时，LLM 才能兼容地记忆它们。此外，LLM 更关注记忆更频繁和更困难的事实，并且后续的事实可以覆盖先前事实的记忆，这严重阻碍了低频事实的记忆。我们发现了 LLMs 事实知识学习的容量和特点，为 LLMs 事实知识增强提供了方向。

Jun, 2024

语言模型在规模上是否能充当知识库？

大型语言模型在理解和生成复杂查询方面表现出了卓越的能力，但它们在存储、回忆和推理大规模结构化知识方面的有效性仍有待研究，本研究发现虽然大型语言模型有望作为大规模知识库灵活地检索和回答问题，但需要增强它们的推理能力以充分发挥潜力。

Feb, 2024

语言模型的物理学：3.1 部分，知识存储与提取

通过对半合成的传记数据进行深入研究，我们发现大语言模型的知识提取能力与训练数据的多样性之间存在着关联，同时通过 (几乎) 线性推测发现模型是否线性地编码实体名称的隐藏嵌入中的知识属性，或者在训练文本中其他标记的嵌入之间存在着强相关性。

Sep, 2023

语言模型的物理学：第 3.2 部分，知识操作

本文研究了语言模型在推理过程中利用存储的知识的能力，发现预训练的语言模型在知识检索方面表现出色，但在简单的分类、比较和逆向搜索任务方面表现较差，即使在训练和推理过程中使用了控制思维链。研究的主要贡献是通过一个合成数据集的控制实验，证实了语言模型无法有效地操作预训练数据中的知识，即使这些知识完全存储且模型可以完全提取，且进行了适当的指导微调。

Sep, 2023

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

大型知识模型：视角与挑战

人类对世界的理解与我们的感知和认知密切相关，其中人类语言作为世界知识的重要承载者之一。本文通过 “知识” 这个视角来探索大型模型，并讨论符号知识如何增强大型语言模型以及大型语言模型如何扩展传统符号知识基础。考虑到人类知识的复杂性，我们倡导创建专门管理多样化知识结构的大型知识模型，并提出了五个 “A” 原则来区分 LKM 的概念。

Dec, 2023

大型语言模型在学习长尾知识方面面临困难

本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系，结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系；同时，该研究发现，虽然更大的模型能学习更长尾的知识，但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后，对相关文档数量依赖进行检索增强，能够有效捕捉长尾知识。

Nov, 2022

重新思考语言模型作为符号知识图谱

基于符号的知识图谱、语言模型和评估指标对知识图谱的拓扑属性和语义属性进行了详尽的评估，发现语言模型在提取符号知识方面能力受到限制。

Aug, 2023

自然语言模型中地理表现的缩放规律

扩展大型语言模型 (LLM) 到研究结果，观察语言模型在扩展时地理知识是如何演变的，并显示较大的语言模型不能消除训练数据中固有的地理偏见。

Feb, 2024

量化 LLM 在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024