指数梯度遇见梯度下降

Feb, 2019

Exponentiated Gradient Meets Gradient Descent

Udaya Ghai, Elad Hazan, Yoram Singer

TL;DR该研究提出了一种称为 hypentropy 的新的正则化方法，利用这种方法可以统一加法和乘法更新算法。这篇论文还利用了 hypentropy 的谱对应关系（spectral hypentropy method）来导出一族基于矩阵的更新算法，并分析了这些更新算法的应用和性能。

Abstract

The (stochastic) gradient descent and the multiplicative update method are probably the most popular algorithms in machine learning. We introduce and study a new →

gradient descent multiplicative update regularization hypentropy spectral hypentropy method

发现论文，激发创造

具有熵正则化的竞争性游戏的快速策略外推方法

本文研究了竞争性游戏的均衡计算问题，提出了一种通过熵正则化实现的解法，可以在线性速率下找到量子反应均衡，并且可以实现分散式迭代更新，同时还可以在亚线性速率下找到非正则矩阵博弈的纳什均衡和解决零和 MDP。

May, 2021

梯度下降遵循普通损失的正则化路径

本论文研究了机器学习中隐含的偏差及其对应的正则化解，并且根据理论证明我们使用的指数型损失函数的正则化效果，可达到最大保边缘的方向，相应的其他损失函数可能会导致收敛于边缘较差的方向。

Jun, 2020

用于加性非参数回归的随机梯度下降

该论文介绍了一种迭代算法，用于训练具有有利的内存存储和计算要求的加法模型。该算法可以被视为随机梯度下降的函数对应物，应用于组成函数的截断基函数的系数。我们证明了所得到的估计器满足一个预言不等式，可以容许模型错误规定。在规范设置下，通过在培训的三个不同阶段仔细选择学习率，我们证明它的风险在数据的维度和训练样本的大小上是极小值最优的。

Jan, 2024

离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计

研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差，证明了该误差在逆正则强度下按指数级别减小，在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系，提供了匹配我们的上界的下界，以多项式因子缩放。此外，我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限，从而刻画了与 Kakade 梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明，在熵正则化自然策略梯度方法中，整体误差随迭代次数的平方根呈指数级别衰减，从而改进了现有的亚线性保证。

Jun, 2024

深度神经网络中权重矩阵的重尾正则化

通过随机矩阵理论，提出了一种名为 “Heavy-Tailed Regularization” 的正则化技术，此技术优化了神经网络的权重矩阵，使其有更重的尾巴，并提升了网络的泛化能力。对比传统的正则化方法，实验结果证明这种新方法在泛化效果上更优秀。

Apr, 2023

信息论半监督度量学习与熵正则化

提出了一种基于信息论的通用方法 Seraph，它适用于度量学习，并且不依赖于流形假设，并通过熵正则化将监督和非监督部分集成在自然且有意义的方式中。此外，Seraph 通过鼓励从度量引出的低秩投影来规范化，它是一种鲁棒性的最优化方法，与许多众所周知的全局和局部度量学习方法相比具有竞争优势。

Jun, 2012

超越矩阵乘法更新的频谱稀疏化与遗憾最小化

该论文提供了一种新的构造线性大小的谱稀疏化的方法，利用了稀疏化和密度矩阵上的遗憾最小化问题之间的强连接，并将矩阵 MWU 自然地形成为 Follow-the-Regularized-Leader 框架的一个实例，从而扩展了构造谱稀疏化的方法。

Jun, 2015

连续时间与空间中的策略镜像下降熵退火

熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。

May, 2024

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022