隐式神经表示的随机训练预处理器

Feb, 2024

隐式神经表示的随机训练预处理器

Preconditioners for the Stochastic Training of Implicit Neural Representations

Shin-Fang Chng, Hemanth Saratchandran, Simon Lucey

TL;DR利用曲率感知的对角预处理器，我们提出了一种用于加速训练的随机训练方法，展示了它们在图像、形状重建和神经辐射场等各种信号模态上的有效性。

Abstract

implicit neural representations have emerged as a powerful technique for encoding complex continuous multidimensional signals as neural networks, enabling a wide range of applications in computer vision, robotics, and geometry. While →

implicit neural representations adam accelerated training stochastic settings curvature-aware diagonal preconditioners

发现论文，激发创造

由 Ornstein-Uhlenbeck 过程驱动的深度神经网络的隐式正则化

研究采用随机梯度下降法训练的神经网络，通过对每一次迭代的训练标签进行独立噪声扰动，得到一个隐式正则化项，从而驱动网络向简单模型发展，并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。

Apr, 2019

深度神经网络的预条件随机梯度 Langevin 动力学

本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法，在深度神经网络的训练中可以解决参数空间的病态和过拟合问题，并且在逻辑回归，前馈神经网络和卷积神经网络等模型上，表现出了最先进的性能。

Dec, 2015

曲率感知坐标网络的训练

本文提出了一种利用二阶优化方法显著减少坐标网络训练时间并维护其可压缩性的解决方案，并在各种信号模态（如音频、图像、视频、形状重构和神经辐射场）上证明了其有效性。

May, 2023

自适应预处理随机梯度 Langevin 动力学

本研究利用自适应参数预处理噪声的方法，将 Fisher Scoring 等高阶曲率信息引入 Stochastic Gradient Langevin Dynamics 中，使其能够有效地跳出深度神经网络中曲率异常的波动区域，与 Adam、AdaGrad 等一阶自适应方法的收敛速度相当，并在测试集上实现了与 SGD 同等的泛化性能。

Jun, 2019

预处理随机梯度下降

本文提出了一种新的方法，通过估计一个预条件器来加速随机梯度下降算法的收敛速度，适用于凸性和非凸性优化，具有稳定梯度降噪的效果，并且经过了大规模问题的有效预条件估计验证，可以在无需调整的情况下，高效解决深度神经网络等复杂问题

Dec, 2015

随机训练对于泛化不是必需的

本文通过比较全批量训练和 SGD 在现代结构下在 CIFAR-10 数据集上的表现，证明了 SGD 的隐式正则化可以完全被显式正则化替代，并指出全批量训练受限于优化性质和 ML 社区花费在小批量训练上的大量时间和精力。

Sep, 2021

隐式偏差对于对角线线性网络 SGD 的影响：随机性的证明性效益

本文研究了随机梯度下降在对角线线性网络上的动态规律，证明了它比梯度下降的解具有更好的泛化性能，并发现收敛速度控制偏见效应的大小，结果支持了结构化噪声可以引起更好泛化性能的理论结论。

Jun, 2021

元学习稀疏隐式神经表示

本文提出了一种利用元学习思想和网络压缩技术相结合的方法，以达到在大量数据集上学习稀疏神经表达的目的，并表明与传统的密集神经网络相比，本方法在相同的参数规模下，能够更快地适应一系列未知信号从而使损失更小。

Oct, 2021

使用随机无 Hessian 优化训练神经网络

本文研究了利用曲率 - 向量积构建更新方向的 Hessian-free（HF）优化方法，在梯度和曲率小批量下实现的随机 HF 并添加防止过拟合的 dropout 方法，实现了介于 SGD 和 HF 之间的中间结果，对分类和深度自编码器实验都有良好表现。

Jan, 2013

延迟反馈下的学习：隐含适应梯度延迟

针对多台异步运行的机器共同访问的内存环境下的随机凸优化问题，我们提出了一种鲁棒的约束训练方法，其非渐近收敛保证不依赖于更新延迟、目标平滑度和梯度方差的先验知识。与此相反，现有方法严重依赖于这些先验知识，因此不适用于所有共享资源的计算环境，如云和数据中心。与现有方法不同，我们的方法可以隐含地适应动态分配机器所带来的延迟变化。

Jun, 2021