超球均匀性学习
利用物理学中汤姆森问题的启示,提出一种新型的正则化方法 —— 最小超球能量(MHE)来减少神经网络中不必要的重复表示,并将其应用于各种挑战性任务,实验证明该算法的有效性。
May, 2018
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
本文介绍了一个用几何角度来研究具有 Normalization Layers 的神经网络优化的球形框架,首先得出了 Adam 的第一个有效学习率表达式,并表明在存在 NLs 的情况下,仅执行 SGD 实际上等效于限制在单位超球面上的 Adam 变体,最后通过实验证实了之前 Adam 的变体对优化过程的影响。
Jun, 2020
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
探究后者如何通过对神经网络训练的分析来理解去偏好能量曲面,而提出了投影映射以减少神经元维度并最小化其超球能量的压缩最小超球能量作为神经网络的更有效的正则化方法。
Jun, 2019
本文介绍了一种基于 Poincaré ball 模型的新型超似曲空间神经网络,该网络构建了多项式逻辑回归、全连接层、卷积层和注意机制,更高效地捕捉数据的分层结构,并在参数效率、稳定性和表现方面优于现有的超似曲组件及欧几里德同类模型。
Jun, 2020
神经网络的隐式正则化现象与参数的几何特征密切相关,优化过程中更倾向于具有低批次功能维度的参数。网络的输入也对批次功能维度产生影响,输入的变化会改变批次功能维度的上限,称为可计算全功能维度,其估计收敛迅速且保持接近参数个数,可以与局部可辨识性相对应。与训练输入和测试输入相关的批次功能维度则由几何诱导的隐式正则化所影响。
Feb, 2024
本文介绍了神经网络中过度参数化情况下的泛化误差及其相关的新理论,即神经切向核理论,通过该理论的信息获取量计算出学习问题的复杂度并证明了泛化误差的上界,同时讨论了该理论对于强化学习领域的应用。
Sep, 2021