- 神经网络参数在训练过程中的信息几何进化
应用信息几何框架研究人工神经网络(ANN)训练过程中的相变行为与过拟合之间的关联,通过研究 ANN 参数的概率分布,利用差分几何原理构建概率分布函数的黎曼流形,观察到 ANN 在训练过程中在流形上的运动发生相变,该相变与 ANN 模型的过拟 - 能量模型训练中的相变级联
我们研究了能量驱动的生成模型 Restricted Boltzmann Machine(RBM)中的特征编码过程,通过简化的体系结构和数据结构的分析研究以及对真实数据集的实际训练的数值分析,我们追踪了模型的权重矩阵通过奇异值分解的演化,揭示 - 基于可微的热性质深度生成模型的正则系综建模
提出了一种具有可微温度的变分建模方法,通过深度生成模型,在连续温度范围内同时估计和最小化自由能,应用于研究 Ising 模型和 XY 模型中的相变,并显示出相对于 Markov Chain Monte Carlo(MCMC)模拟更高效准确的 - 特征引导:在大引导尺度下对 DDPM 的非线性校正
提出了特征引导方法,用于对无分类器指导的扩散概率模型进行非线性修正,以保证其与底层扩散过程的福克 - 普朗克方程相吻合,同时能够优化样本生成过程,解决颜色、曝光等问题,还能够处理相变等物理问题。
- 基于洗牌配置的无监督学习的站点渗流
应用主成分分析(PCA)和基于无监督学习的自编码器(AE),研究了随机化和选择的渗流图作为神经网络的输入,分析了获得的结果,表明 AE 的单一潜在变量和 PCA 的第一主成分与粒子密度相关。
- 机器学习相变:与费舍尔信息的关联
机器学习技术用于检测相变已经被广泛使用并取得成功,但其工作原理和基本限制仍然不清楚。本研究使用信息几何学的工具,通过将流行的机器学习相变指标与信息论概念联系起来,解释了其内部工作原理,并确定了潜在的失效模式。我们证明了几个机器学习相变指标从 - 多任务混淆学习快速检测相变
利用机器学习研究相变,提出了一种基于混淆学习的方案,通过训练一个多类别分类器而不是多个二分类器来减少计算成本,实现了与理想情况相近的速度提升,适用于伊辛模型和具有稳定扩散生成的图像数据集。
- 超叠波 toy 模型中的动力学与贝叶斯相变
通过奇异学习理论,我们研究了超位叠加玩具模型中的相变。我们导出了理论损失的闭合公式,并在两个隐藏维度的情况下发现正则 k - 边形是临界点。我们提出了支持理论,表明这些 k - 边形的局部学习系数(一种几何不变量)决定了贝叶斯后验随训练样本 - 优秀表示的液滴:在两层网络中领悟为一阶相变
深度神经网络在特征学习方面的能力,特别是与 Grokking 现象相关的阶段转变理论和预测,揭示出在训练过程中学习新特征的机制。
- 训练动力学的潜在状态模型
模型训练中随机性的影响,如何解释数据顺序和初始化的差异,以及如何解读训练动态和不同轨迹所特征的相变,使用隐马尔可夫模型对神经网络训练过程进行建模,研究相变和减速收敛的潜在 “绕道” 状态。
- 全球、时间视角下的社会动荡相变
研究表明,集体民众不满情绪的动态变化可以被描述为一连串的相变,每个相变都具有可测量的潜在特征,并且这些相变普遍存在于全球不同国家的民众不满事件中。该研究提出了一个宏观统计模型来评估国家内的长期不安定性,并展示了这些事件在地理上的聚集现象。此 - 用于训练生成对抗网络的梯度下降 - 上升的本地收敛性
研究了使用基于核的判别器训练生成式对抗网络的梯度下降 - 上升过程,通过线性化的非线性动态系统描述方法,探究了学习率、正则化和核判别器带宽对该过程的局部收敛速度的影响,提出了系统收敛、振荡和发散的阶段转换点,并通过数值模拟验证了结论。
- 稀疏和密集神经网络小批量大小的相变
本研究在教师 - 学生模型下,以不同复杂度的任务为研究对象,探究了小批量训练方式对两层神经网络学习的影响。结果发现,小批量大小对学生的泛化性能有显著影响,当小批量大小小于阈值时,学生无法学习;而当小批量大小大于阈值时,学生可以完美学习或非常 - 旋转对称神经网络用于漫游磁体自旋动力学模拟
本论文提出了一种新颖的等变神经网络体系结构,用于 Kondo 晶格模型的大规模自旋动力学模拟,并应用于二维正方形和三角形晶格上的模型。该网络确保平移和自旋旋转等同,并且可以准确复现磁性相变,通过训练模型优于使用不变描述符的模型,并证明其在三 - ICLR基于图形的主动物质模型仿真推断
本文研究了非平衡态下存在的集体系统,详细探讨了个体材料组分内部能量以及小扰动对整个系统流变性质的全球影响,利用模拟推断方法依据少量图像数据提取了集体系统参数的可行性,着重强调了复杂集体系统内部的结构关系是生成模型和数据更精确匹配的重要因素。
- ICLR奖励错误规划的影响:映射和缓解不匹配的模型
此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励,并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。
- ICLR表示学习中信息瓶颈的相变
通过研究信息瓶颈 (IB) 目标函数中的多个相变,我们引入了 IB 相变的定义作为 IB 损失函数景观的定性变化,并提出了一个公式,为 IB 相变提供了实际条件,从而预测了数据集的阶段性变化和分类难度。
- 贝叶斯推断问题中的相变类型学
本文通过对稀疏图上的推理问题的描述和分析,研究了随机块模型的相变以及在信息论上最优化问题变得容易但是在计算上仍具挑战性的的混合硬相位,并阐明了消息传递算法的贝叶斯最优性及其在这些问题中的作用,并通过数值模拟验证了该方法的有效性。
- 委员会机器:二层神经网络中学习的计算到统计差距
本研究使用统计物理中的启发式工具定位相变,并计算了多层神经网络中教师 - 学生场景下的最优学习和泛化误差。我们提出了适用于委员会机器的 AMP 算法版本,允许对大量参数进行多项式时间的最优学习,发现存在一些区间,信息理论上可实现低泛化误差, - 欧几里得随机图上的社区检测
本研究考虑在具有二元社区标签和 R^d 值位置标签的欧几里得随机几何图上进行社区检测问题,其中边缘概率依赖于社区和位置标签。我们针对稀疏和对数度规则建立了相变现象,并给出了阈值的约束。此外,我们还展示了在我们的模型与没有社区标签的空模型之间