本文研究了使用熵正则化提高强化学习策略优化的方法,探讨了高熵策略能使得优化过程更为平滑,从而帮助穿过局部优化点,但挑战在于设计通用的策略优化算法。
Nov, 2018
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系,提供了匹配我们的上界的下界,以多项式因子缩放。此外,我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限,从而刻画了与 Kakade 梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明,在熵正则化自然策略梯度方法中,整体误差随迭代次数的平方根呈指数级别衰减,从而改进了现有的亚线性保证。
Jun, 2024
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
我们研究了具有 Polish 状态和动作空间的无限时段熵正则化马尔可夫决策过程的 Fisher-Rao 策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明了该流在梯度评估方面的稳定性,从而揭示了以对数线性策略参数化的自然策略梯度流的性能。为了克服客观函数的非凸性和由熵正则化引起的不连续性引起的挑战,我们利用了性能差分引理和梯度与镜像下降流之间的对偶关系。
Oct, 2023
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
Jan, 2022
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
本研究致力于对连续时间漫射模型中的熵正则调优问题进行深入研究,并展示如何将分析扩展到涉及一般 $f$- 散度正则化器的调优问题。
Mar, 2024
本文研究了竞争性游戏的均衡计算问题,提出了一种通过熵正则化实现的解法,可以在线性速率下找到量子反应均衡,并且可以实现分散式迭代更新,同时还可以在亚线性速率下找到非正则矩阵博弈的纳什均衡和解决零和 MDP。
May, 2021
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证,并专注于受 softmax 参数化限制的比例调节的策略梯度算法,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化 MDP 的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文证明了熵正则化最优输运问题的 Gamma 收敛性,并证明了隐式步骤按熵正则化距离时收敛于原始梯度流,证明了压缩后的最优输运计划收敛于最优输运计划,这表明了压缩后的熵正则化最优输运计划在熵消失时收敛于最优输运计划。
Dec, 2015