超叠波 toy 模型中的动力学与贝叶斯相变

Oct, 2023

超叠波 toy 模型中的动力学与贝叶斯相变

Dynamical versus Bayesian Phase Transitions in a Toy Model of Superposition

Zhongtian Chen, Edmund Lau, Jake Mendel, Susan Wei, Daniel Murfet

TL;DR通过奇异学习理论，我们研究了超位叠加玩具模型中的相变。我们导出了理论损失的闭合公式，并在两个隐藏维度的情况下发现正则 k - 边形是临界点。我们提出了支持理论，表明这些 k - 边形的局部学习系数（一种几何不变量）决定了贝叶斯后验随训练样本大小的相变。然后，我们通过实验证明，这些 k - 边形临界点也决定了 SGD 训练的行为。综合所得的结论支持了一种 SGD 学习轨迹受顺序学习机制影响的猜想。具体而言，我们发现 TMS 中的学习过程（无论是通过 SGD 还是贝叶斯学习）可以被表征为在参数空间中从高损失低复杂度区域到低损失高复杂度区域的旅程。

Abstract

We investigate phase transitions in a toy model of superposition (TMS) using singular learning theory (SLT). We derive a closed formula fo

phase transitions toy model of superposition singular learning theory geometric invariant learning trajectory

发现论文，激发创造

贝叶斯推断问题中的相变类型学

本文通过对稀疏图上的推理问题的描述和分析，研究了随机块模型的相变以及在信息论上最优化问题变得容易但是在计算上仍具挑战性的的混合硬相位，并阐明了消息传递算法的贝叶斯最优性及其在这些问题中的作用，并通过数值模拟验证了该方法的有效性。

Jun, 2018

大深度量子神经网络中的动力学相变

量子神经网络的训练动力学可以用广义的 Lotka-Volterra 方程描述，导致了一个动力学相变。当代价函数的目标值从上方穿过最小可达值到下方时，动力学从冻结核相位变为冻结误差相位，显示了量子神经正切核和总误差之间的二元性。在两个相位中，对于固定点的收敛是指数级的，而在临界点时则是多项式级的。我们通过将训练动力学的 Hessian 映射到虚时间中的 Hamiltonian，揭示了相变的本质是二阶的，指数 ν=1，表现出临界点的尺度不变性和闭合间隙。我们还通过在输出态趋近稳态时的限制 Haar 集合上提供了一个非微扰的解释相变的分析理论。这些理论发现在 IBM 量子设备上得到了实验验证。

Nov, 2023

能量模型训练中的相变级联

我们研究了能量驱动的生成模型 Restricted Boltzmann Machine（RBM）中的特征编码过程，通过简化的体系结构和数据结构的分析研究以及对真实数据集的实际训练的数值分析，我们追踪了模型的权重矩阵通过奇异值分解的演化，揭示了与经验概率分布的主要模式的渐进学习相关的一系列相变现象。模型首先学习模式的质心，然后通过一系列相变级联解决所有模式。我们首先在一个受控的设置中从理论上描述了这个过程，使我们能够对训练动态进行理论上的研究。然后，通过对真实数据集训练 Bernoulli-Bernoulli RBM 来验证我们的理论结果。通过使用维度逐渐增加的数据集，我们展示了学习确实导致了在高维极限下的尖锐相变。此外，我们提出并测试了一个均场有限尺度缩放假设，表明第一次相变与我们从理论上研究过的相变属于同一普适类，类似于均场铁磁 - 顺磁相变。

May, 2024

互动智能代理系统中相变鉴别的机器学习方法

通过降阶模型、数据驱动框架、流形学习算法、深度学习框架和分叉图表，本文提出了一种定位基于代理模型 (ABMs) 的平均场极限相变的方法。

Oct, 2023

奇点分辨解法的变分贝叶斯神经网络

本文研究奉行奇异学习理论（SLT）在变分推断中的重要性，使用 SLT 填补变分推断与下游预测性能之间差异的众多困惑，使用 SLT 修正奇异后验分布的渐近形式以支持变分族设计，并提出了基于谨慎初始化的广义 Gamma 分布的归一化流作为改进方案，相关实验也证实改进的可行性和效果。

Feb, 2023

多任务混淆学习快速检测相变

利用机器学习研究相变，提出了一种基于混淆学习的方案，通过训练一个多类别分类器而不是多个二分类器来减少计算成本，实现了与理想情况相近的速度提升，适用于伊辛模型和具有稳定扩散生成的图像数据集。

Nov, 2023

信号传播的几何动力学预测 Transformer 的可训练性

深度随机初始化的 transformer 中的前向信号传播和梯度反向传播进行了研究，得出了初始化超参数的简单必要和充分条件，以确保 transformer 的可训练性。

Mar, 2024

从互信息到期望动力学：针对重尾随机梯度下降的新的泛化界限

理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近，随机梯度下降（SGD）的学习动态与重尾动态有关，这已成功应用于利用这些动态的分形属性的泛化理论中。然而，所推导出的界限依赖于超出计算能力的互信息（解耦）项。在本研究中，我们证明了一类重尾动态轨迹上的泛化界限，而无需这些互信息项。相反，我们通过比较基于经验风险的学习动态（依赖于群体风险）与基于预期风险的动态引入了一个几何解耦项。我们进一步利用重尾和分形文献中的技术对该几何项进行了上界限定，使其完全可计算。此外，为了收紧界限，我们提出了一个基于扰动动态的 PAC-Bayesian 设置，在该设置中，相同的几何项起着关键的作用，并且仍然可以使用上述描述的技术进行界定。

Dec, 2023

贝叶斯非参数推断的线性动态系统转换

使用贝叶斯非参数方法，将层次狄利克雷过程先验应用于两种切换动态模型，学习未知的持续光滑动态模式，同时推断动态依赖性的稀疏集，以学习具有变化状态维数的切换线性动态系统或具有变化自回归顺序的切换 VAR 过程，最终通过舞蹈蜜蜂序列、IBOVESPA 股票指数和机动目标跟踪应用程序展示模型的效用和灵活性

Mar, 2010

高斯混合分类中随机梯度下降的动力学平均场理论

通过使用动力学均场理论的方法，我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限，称之为随机梯度流，并探讨了算法控制参数对其在损失函数空间中的导航的影响。

Jun, 2020