熵对策略优化的影响理解

ICMLNov, 2018

Understanding the impact of entropy on policy optimization

Zafarali Ahmed, Nicolas Le Roux, Mohammad Norouzi, Dale Schuurmans

TL;DR本文研究了使用熵正则化提高强化学习策略优化的方法，探讨了高熵策略能使得优化过程更为平滑，从而帮助穿过局部优化点，但挑战在于设计通用的策略优化算法。

Abstract

entropy regularization is commonly used to improve policy optimization in reinforcement learning. It is believed to help with \emph{

entropy regularization policy optimization reinforcement learning exploration optimization landscape

发现论文，激发创造

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

连续时间与空间中的策略镜像下降熵退火

熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。

May, 2024

策略优化在正则化广义和 LQ 博弈中找到纳什均衡

研究引入相对熵正则化对 General-Sum $N$-agent games 的 Nash Equilibria 的影响，揭示了该类游戏的 NE 符合线性高斯策略。此外，本文提出了符合熵正则化充分条件的 NE 唯一性，并证明了在 Policy Optimization 算法中线性收敛性，该算法在熵正则化充分条件下能达到 NE。此外，在熵正则化不足的情况下，我们还提出了一种 δ 增强技术，可实现游戏中的 ε-NE。

Mar, 2024

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

探究强化学习智能体在个性化任务中的策略熵

本研究旨在考察强化学习系统在个性化环境中的行为，说明不同类型的学习算法所产生的策略熵的差异。我们证明了在训练过程中，优化策略代理经常具有低熵策略，从而导致代理优先考虑某些动作而避免其他动作。相反，我们还展示了 Q - 学习代理很少受到这种行为的影响，并且通常在整个训练过程中保持高熵策略，在实际应用中这通常更可取。我们提供了广泛的数值实验证明和理论证明来表明，这些熵差异是由所采用的学习类型引起的。

Nov, 2022

熵正则化的基于点的价值迭代

模型基于策划者在部分可观测问题中必须适应策划过程中的模型和目标不确定性。受无模型设置的结果启发，我们提出了一种熵正则化的模型基于策划者来解决部分可观测问题。通过鼓励策略在规划和目标推理中不过度承诺单一行动，熵正则化提升了策略的鲁棒性和目标推理性能。我们在三个问题领域评估了熵正则化策略的鲁棒性和目标推理性能，并结果显示，在模型错误下的期望回报更高，目标推理中的准确性更高。

Feb, 2024

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017