用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

Sep, 2017

用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

Sparse Markov Decision Processes with Causal Sparse Tsallis Entropy Regularization for Reinforcement Learning

Kyungjae Lee, Sungjoon Choi, Songhwai Oh

TL;DR本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程，引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布，并与利用因果熵正则化的软 Markov 决策过程进行了比较，在强化学习问题中应用稀疏 MDP 方法，优于现有方法在收敛速度和性能方面。

Abstract

In this paper, a sparse markov decision process (MDP) with novel causal sparse Tsallis entropy regularization is proposed.The proposed policy regularization induces a sparse and multi-modal optimal policy distribution of a sparse MDP. The full mathematical analysis of the proposed spar

sparse markov decision process causal entropy regularization optimality value iteration reinforcement learning

发现论文，激发创造

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

Tsallis 熵正则化 MDP 中的路径一致性学习

本研究研究了稀疏熵正则化强化学习问题，提出了一种新颖的路径一致性学习算法，名为 “稀疏 PCL”，并证明它比标准的 Shannon 熵正则化 RL（软 ERL）问题更优，特别是在动作数量较多的情况下。

Feb, 2018

带熵正则化的约束马尔可夫决策过程的双重方法

研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其 Lagrange 对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。

Oct, 2021

Tsallis 强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Jan, 2019

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

对线性可解的 MDP 和线性二次调节器采用 Tsallis 熵来实现正则化，从而在探索和控制规律的稀疏性之间取得平衡。

Mar, 2024

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023

正则化马尔科夫决策过程理论

本文提出了一种正则化的马尔可夫决策过程的一般理论，结合正则化贝尔曼算子和 Legendre-Fenchel 变换，可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析，并与 Mirror Descent 进行了连接。

Jan, 2019

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计

研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差，证明了该误差在逆正则强度下按指数级别减小，在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系，提供了匹配我们的上界的下界，以多项式因子缩放。此外，我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限，从而刻画了与 Kakade 梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明，在熵正则化自然策略梯度方法中，整体误差随迭代次数的平方根呈指数级别衰减，从而改进了现有的亚线性保证。

Jun, 2024

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022