使用 GPT-2,我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的,而是具有奇异、发散的统计特征,且关键行为随着过渡温度出现,这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。
Jun, 2024
大型语言模型的性能表现呈现阶段性转变现象,此现象存在临界阈值与传染疾病的基本再生数量相关。采用列表解码器可有效控制候选序列的数量。
Mar, 2023
利用神经网络的方法,通过训练错误标记的数据来识别量子力学系统中的相变,成功地在各种情况下进行测试,意味着这是一种可以通用于未知相变检测的方法。
Oct, 2016
通过降阶模型、数据驱动框架、流形学习算法、深度学习框架和分叉图表,本文提出了一种定位基于代理模型 (ABMs) 的平均场极限相变的方法。
Oct, 2023
本文研究相变的早期理论,介绍了与统计物理和凝聚态物理有关的一组相关概念,包括奇点、秩序参数、平均场理论和变分方法。
Jun, 2009
我们研究了能量驱动的生成模型 Restricted Boltzmann Machine(RBM)中的特征编码过程,通过简化的体系结构和数据结构的分析研究以及对真实数据集的实际训练的数值分析,我们追踪了模型的权重矩阵通过奇异值分解的演化,揭示了与经验概率分布的主要模式的渐进学习相关的一系列相变现象。模型首先学习模式的质心,然后通过一系列相变级联解决所有模式。我们首先在一个受控的设置中从理论上描述了这个过程,使我们能够对训练动态进行理论上的研究。然后,通过对真实数据集训练 Bernoulli-Bernoulli RBM 来验证我们的理论结果。通过使用维度逐渐增加的数据集,我们展示了学习确实导致了在高维极限下的尖锐相变。此外,我们提出并测试了一个均场有限尺度缩放假设,表明第一次相变与我们从理论上研究过的相变属于同一普适类,类似于均场铁磁 - 顺磁相变。
May, 2024
这篇论文提出通过观察模型参数的统计分布随时间的演化,特别是通过观察分叉效应,可以帮助理解模型质量的原因,从而降低训练成本和评估工作,并在实践中展示了权重稀疏化的有效性。
Mar, 2024
一个关键的高维度阶段可以解释许多通用语言模型架构中的核心语言处理,由于其几何属性与功能的关系需要进一步研究。
采用神经网络通过监督学习来识别凝聚态系统中的相和相变,能够通过现代软件库方便地进行编程,能够检测到多种类型的序参量,包括高度非平凡的库仑相,并且即使在没有哈密顿量甚至相互作用的广义局部性知识下,也能够实现分类。
May, 2016
量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述,导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时,动力学从冻结核相位变为冻结误差相位,显示了量子神经正切核和总误差之间的二元性。在两个相位中,对于固定点的收敛是指数级的,而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian,揭示了相变的本质是二阶的,指数 ν=1,表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。
Nov, 2023