通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习

May, 2022

通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习

Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning

Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara

TL;DR通过强制隐式 Kullback-Leibler（KL）正则化来提高 Maximum Tsallis entropy（MTE）框架对非闭合形式 Tsallis 熵的误差鲁棒性。提出的 Tsallis Advantage Learning（TAL）方法在广泛的实验中得到验证，不仅在各种非闭合形式的 Tsallis 熵上显著优于 Tsallis-DQN，而且表现出与最先进的 Shannon 熵算法相当的性能。

Abstract

Maximum tsallis entropy (MTE) framework in reinforcement learning has gained popularity recently by virtue of its flexible modeling choices including the widely used Shannon entropy and sparse entropy. However, n

tsallis entropy reinforcement learning kullback-leibler regularization munchausen dqn advantage learning

发现论文，激发创造

Tsallis 强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Jan, 2019

Q-Munchausen 强化学习

本文针对 Munchausen 强化学习在 Tsallis sparsemax 策略下无法表现出优越性能的问题，提出了基于 Tsallis Entropy 的 $q$-logarithm/exponential 方法，解决了传统 logarithm 和非 logarithmic Tsallis entropy 之间的不匹配问题，使 M-RL 能在 Tsallis entropy 框架下实现隐式的 KL 规则正化，同时在标准测试问题上取得了超越表现。

May, 2022

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

对线性可解的 MDP 和线性二次调节器采用 Tsallis 熵来实现正则化，从而在探索和控制规律的稀疏性之间取得平衡。

Mar, 2024

使用 Tsallis KL 散度的广义 Munchausen 强化学习

该研究探讨了一种广义的 KL 散度，称为 Tsallis KL 散度，并将其应用于政策优化，通过将其与基于 MVI 的 KL 正则化相结合，证明该技术可有效提高 35 个 Atari 游戏的表现。

Jan, 2023

具有生成模型的 KL 熵正则化强化学习是极小极大值最优的

本文研究了使用生成模型的无模型强化学习的样本复杂性，重点分析了使用 Kullback-Leibler 散度和熵正则化在值和策略更新中的 Geist 等人（2019）和 Vieillard 等人的 Mirror descent value iteration（MDVI），并证明了在 ε 足够小的情况下，该算法几乎是极小值 - 最优的，这是第一个证明了在所考虑的条件下，一个简单的无模型算法（不执行方差缩减）几乎是极小值 - 最优的理论结果。

May, 2022

Tsallis 熵正则化 MDP 中的路径一致性学习

本研究研究了稀疏熵正则化强化学习问题，提出了一种新颖的路径一致性学习算法，名为 “稀疏 PCL”，并证明它比标准的 Shannon 熵正则化 RL（软 ERL）问题更优，特别是在动作数量较多的情况下。

Feb, 2018

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程，引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布，并与利用因果熵正则化的软 Markov 决策过程进行了比较，在强化学习问题中应用稀疏 MDP 方法，优于现有方法在收敛速度和性能方面。

Sep, 2017

利用平均值：RL 中 KL 正则化的分析

本文探讨强化学习中的 KL 正则化，发现其内在地平均了 q-values，并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的，误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况进行了研究，这个抽象模型包含了许多现有的强化学习算法。

Mar, 2020