语言模型的核心数据规模：一种全面理解的视角

Jan, 2024

语言模型的核心数据规模：一种全面理解的视角

Critical Data Size of Language Models from a Grokking Perspective

Xuekai Zhu, Yao Fu, Bowen Zhou, Zhouhan Lin

TL;DR通过研究数据规模，我们发现了语言模型从快速记忆到慢速泛化的临界点，提出了数据效率假设并确定了语言模型训练中的数据不足、充足和过剩阶段。我们开发了一种配置方法来稳定地在简化语言模型中达到这种理解。实验结果显示，只有当语言模型达到一定的关键尺寸时才会发生泛化，我们对样本和模型进行了分析，验证了数据效率假设。我们的研究深化了对语言模型训练的理解，并提供了一个新的视角来解释数据在语言模型学习机制中的作用。

Abstract

We explore the critical data size in language models, a threshold that marks a fundamental shift from quick memorization to slow generalization

data size language models generalization data efficiency hypothesis critical point

发现论文，激发创造

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

理解 Grokking：表示学习有效理论的探究

通过微观分析和宏观相图描述学习性能，本研究发现，泛化是由结构化表示产生的，这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时，我们观察到四个学习阶段：理解、深度理解、记忆和混淆。此外，本研究还发现，表示学习仅发生在 “Goldilocks 区域”，而这一阶段在理解和深度理解之间，而位于记忆和混淆之间。同时，我们也发现，在 transformers 模型中，深度理解阶段与记忆阶段更接近，导致延迟了泛化，这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。

May, 2022

大型语言模型中的关键相变

使用 GPT-2，我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的，而是具有奇异、发散的统计特征，且关键行为随着过渡温度出现，这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。

Jun, 2024

Omnigrok: 超越算法数据的理解

通过分析神经网络损失景观和表示学习等机制，我们提出了 LU 机制，解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因，并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。

Oct, 2022

探究微调模型时数据大小的重要性

研究表明优化 Fine-tuning 效果的原因是 Fine-tuning 的数据集大小，同时数据集大小会影响编码的语言知识程度，而且数据集大小主要影响神经网络的高层，且这种影响程度跟 Fine-tuning 迭代次数有关。

Mar, 2022

大语言模型中的阶段转变的简单解释与列表译码

大型语言模型的性能表现呈现阶段性转变现象，此现象存在临界阈值与传染疾病的基本再生数量相关。采用列表解码器可有效控制候选序列的数量。

Mar, 2023

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

两个电路的故事：稀疏和密集子网络的竞争

研究了 Grokking 现象，发现由于神经元之间的竞争，模型有一个稀疏子网络，此网络随着优化时神经元的快速标准增长而出现，这个网络在 grokking 相变后主导模型预测。

Mar, 2023

通过电路效率解释通俗易懂

一种最令人惊讶的神经网络概括性的难题是理解：一个在训练中完美的网络但在概括性上表现糟糕，经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点：理解发生在任务允许概括性解和记忆化解的情况下，其中概括性解的学习速度较慢但更高效，用相同参数范数产生较大的对数后验概率。我们提出假设，记忆化电路在训练数据集越大时变得越不高效，而概括性电路则不会，这提示存在一个关键数据集大小，在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测，为我们的解释提供了重要证据。最引人注目的是，我们展示了两种新的令人惊讶的行为：非理解，在这种情况下，网络从完美的测试准确性回退到低的测试准确性；半理解，在这种情况下，网络表现出对部分而不是完美的测试准确性的延迟概括。

Sep, 2023

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023