线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

Mar, 2024

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

Tsallis Entropy Regularization for Linearly Solvable MDP and Linear Quadratic Regulator

Yota Hashizume, Koshi Oishi, Kenji Kashima

TL;DR对线性可解的 MDP 和线性二次调节器采用 Tsallis 熵来实现正则化，从而在探索和控制规律的稀疏性之间取得平衡。

Abstract

shannon entropy regularization is widely adopted in optimal control due to its ability to promote exploration and enhance robustness, e.g., maximum entropy reinforcement learning known as Soft Actor-Critic. In this paper, →

shannon entropy regularization tsallis entropy linearly solvable mdp linear quadratic regulators exploration and sparsity

发现论文，激发创造

通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习

通过强制隐式 Kullback-Leibler（KL）正则化来提高 Maximum Tsallis entropy（MTE）框架对非闭合形式 Tsallis 熵的误差鲁棒性。提出的 Tsallis Advantage Learning（TAL）方法在广泛的实验中得到验证，不仅在各种非闭合形式的 Tsallis 熵上显著优于 Tsallis-DQN，而且表现出与最先进的 Shannon 熵算法相当的性能。

May, 2022

Tsallis 强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Jan, 2019

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程，引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布，并与利用因果熵正则化的软 Markov 决策过程进行了比较，在强化学习问题中应用稀疏 MDP 方法，优于现有方法在收敛速度和性能方面。

Sep, 2017

Tsallis 熵正则化 MDP 中的路径一致性学习

本研究研究了稀疏熵正则化强化学习问题，提出了一种新颖的路径一致性学习算法，名为 “稀疏 PCL”，并证明它比标准的 Shannon 熵正则化 RL（软 ERL）问题更优，特别是在动作数量较多的情况下。

Feb, 2018

带熵正则化的约束马尔可夫决策过程的双重方法

研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其 Lagrange 对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。

Oct, 2021

软量化基于熵正则化

本研究介绍了量化问题，熵正则化量化问题以及熵正则化瓦砾斯坦距离的性质和稳定性，提出了一种基于软极小函数的逼近技术，使用熵正则化瓦砾斯坦距离评估软量化问题的逼近质量，并采用随机梯度法求解最优解。该方法的控制参数可调整优化问题的难度，对处理复杂问题具有显著优势，并通过实验证明了方法在各种应用中的性能。

Sep, 2023

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

连续时间与空间中的策略镜像下降熵退火

熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。

May, 2024

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023