LocoProp：通过本地损失优化增强 BackProp

Jun, 2021

LocoProp：通过本地损失优化增强 BackProp

LocoProp: Enhancing BackProp via Local Loss Optimization

Ehsan Amid, Rohan Anil, Manfred K. Warmuth

TL;DR本文介绍了一个基于层次损失构建的一般框架，用于多层神经网络的优化，并使用具有不同传递函数的层次 Bregman 离散来证明其效果，以缩小一阶和二阶仿真器之间的差距。

Abstract

second-order methods have shown state-of-the-art performance for optimizing deep neural networks. Nonetheless, their large memory requirement and high computational complexity, compared to first-order methods, hi

second-order methods deep neural networks layerwise loss construction first-order optimizers bregman divergences

发现论文，激发创造

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

使用本地错误信号训练神经网络

该论文探讨了使用分层损失函数进行神经网络分类的监督训练的方法，表明可在多种图像数据集上达到最先进水平，在局部学习的情况下，使用本地误差可能是朝着更符合生物学的深度学习的一步。

Jan, 2019

将随机梯度推向二阶方法 —— 通过非线性变换的反向传播学习

本研究提出针对神经网络的三个转换方法，以近似二阶优化方法提高学习速度，但第三个转换可能因收敛到局部最优解且隐藏神经元的输入和输出接近零而对性能造成损害。

Jan, 2013

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

理解和校正学习优化器训练中的病态

通过对学习到的优化函数进行训练以执行特定任务，我们提出了一种训练方案，它可以比经过调整的一阶方法更快地训练卷积网络，并在测试损失上得到改进。

Oct, 2018

深度学习随机一阶方法的逐层自适应步长

我们提出了一种新的逐层自适应步长过程，用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题，并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。

May, 2023

数据流形上的本地高阶正则化

介绍了一种新型的正则化方法，它是全局高阶的，不会出现图拉普拉斯正则化中的退化问题。通过构建一个局部一阶替代几何形式，有助于减少计算复杂度，并基于局部导数评估构造高阶正则化方法，该方法在人体形状和姿势分析中的实验表明了其有效性和效率。

Feb, 2016

学习深度模型：临界点和局部开放性

该篇论文提出了一个统一框架，确定了训练非凸模型产生的优化问题的局部 / 全局最优等价性，讨论了线性神经网络和具有一定金字塔结构的非线性深层模型的局部 / 全局最优等价性，并提供了简单的充分条件。

Mar, 2018

一个可靠的分布式二阶算法

本文提出了一种新的分布式广义线性模型训练算法，只需计算各工作器上的 Hessian 矩阵的对角块，然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。

Jun, 2018

区域化优化

我们提出了一个理论框架，用于在给定函子的约束条件下从局部损失的集合中非冗余地重建全局损失，我们称其为区域化损失，是优化问题的自然数学框架，提出了新的消息传递算法，用于嘈杂通道网络的最小化问题，并将广义置信传播算法纳入我们提出的框架。

Jan, 2022