崛起学习：由新兴能力和单义性基础的研究

Dec, 2023

崛起学习：由新兴能力和单义性基础的研究

Emergence Learning: A Rising Direction from Emergent Abilities and a Monosemanticity-Based Study

Jiachuan Wang, Shimin Di, Lei Chen, Charles Wang Wai Ng

TL;DR通过研究不同规模的模型，我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少，提出了一种主动抑制单语义性的两阶段方法，并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模，但对于研究部门来说，将该研究扩展至非常大规模的数据集是吸引人的，但受到资源限制而不可能实现，期待 AI 公司的合作。

Abstract

In the past 20 years, artificial neural networks have become dominant in various areas, continually growing in scale. However, the current analysis of large models has mainly focused on functionality, overlooking the influence of →

artificial neural networks scale differences emergence learning monosemantic neurons large-scale datasets

发现论文，激发创造

简化规模生成式语言模型中的新能力

通过简化预训练数据，研究表明在训练数据规模较小的模型上，也能出现零样本学习能力，并且模型规模大小与计算资源、数据集大小之间呈现幂律关系。

Apr, 2024

大型语言模型的新兴能力

探讨了语言模型的可扩展性问题，发现通过扩展语言模型的规模，可以实现一些新的能力和提升性能。

Jun, 2022

大型语言模型的新兴能力是否是海市蜃楼？

针对大型语言模型的研究表明，一些表观的新能力可能是研究人员在分析过程中选择了不同的度量标准而得出的结果，而非模型行为的本质变化，我们在使用简单的数学模型进行确认后得到支持证据。

Apr, 2023

大型语言模型中的突现能力是否只是针对上下文的学习？

通过一系列超过 1000 次实验，我们对包含 60 百万到 1750 亿参数范围内的 18 个模型进行了严格测试，在包括 22 个任务在内的全面任务集上提供了有力证据，表明新兴能力主要可以归因于上下文学习，并没有发现推理能力的出现，从而为我们对于观察到的能力背后的机制提供了宝贵的洞见，并缓解了对于它们使用的安全问题的担忧。

Sep, 2023

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

一种可精确求解的涌现与缩放规律模型

深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力，这被称为发生现象。本文提出了一个基于技能的框架，其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型，并得到了与培训时间、数据量、模型规模和最佳计算（C）有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较，其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数，能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。

Apr, 2024

基于多重分形分析视角的 LLMs 中神经元间相互作用和出现的探索

通过引入 “自组织” 和 “多重分形分析” 概念，我们探索了神经元在训练过程中动态演化的相互作用，从而导致 “出现”，反映了自然系统中微观相互作用引起复杂宏观行为的现象。利用神经元多重分形分析（NeuroMFA）定量分析训练过程中大模型中神经元之间持续演化的相互作用，我们对大语言模型中的出现行为进行了全面考察，从模型大小和训练过程的角度开辟了新的研究方向。

Feb, 2024

神经网络的语义景观范式

深度神经网络的训练动态可以用语义景观范式来描述，该范式将神经网络的学习表示抽象为图上的轨迹，并解释了与尺度相关的算法的出现以及神经尺度定律的统计物理学现象。

Jul, 2023

网络理解、双下降和应用能力的统一视角：来自电路竞争的观点

最近的研究揭示了在深度学习中的一些有趣的现象，如 grokking、双下降和大型语言模型的新兴能力，这些现象挑战了人类的直观理解，对于更深入地理解神经模型至关重要。本文提出了一个全面的框架，提供了对这些现象的统一观点，着重于记忆和概括电路之间的竞争。我们的方法首先用于解释 grokking，并在我们的工作中扩展到更广泛的模型尺寸和训练数据量范围。利用这个框架，我们对双下降现象进行了详细分析，并提出了两个关于其出现的可验证预测，这两个预测都得到了我们的实验结果的证实。此外，我们将我们的框架扩展到多任务学习范式，展示了如何将算法任务转化为新兴能力，为理解大型语言模型中的新兴能力提供了一种新的视角。

Feb, 2024

从损失的角度理解语言模型的新能力

通过预训练损失来重新定义新能力，发现较低预训练损失的模型呈现出的性能趋势不可被简单地推断，表现出较高的新能力。

Mar, 2024