Tsallis 强化学习：最大熵强化学习的统一框架

Jan, 2019

Tsallis 强化学习：最大熵强化学习的统一框架

Tsallis Reinforcement Learning: A Unified Framework for Maximum Entropy Reinforcement Learning

Kyungjae Lee, Sungyub Kim, Sungbin Lim, Sungjoon Choi, Songhwai Oh

TL;DR本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准 Shannon-Gibbs 熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用 Tsallis 的熵极大化，并以无模型演员 - 评论家策略进行实现，在 MuJoCo 模拟器上进行验证并取得最先进的性能。

Abstract

In this paper, we present a new class of markov decision processes (MDPs), called Tsallis MDPs, with tsallis entropy maximization, which generalizes existing maximum entropy →

markov decision processes tsallis entropy maximization reinforcement learning actor-critic exploration tendency

发现论文，激发创造

通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习

通过强制隐式 Kullback-Leibler（KL）正则化来提高 Maximum Tsallis entropy（MTE）框架对非闭合形式 Tsallis 熵的误差鲁棒性。提出的 Tsallis Advantage Learning（TAL）方法在广泛的实验中得到验证，不仅在各种非闭合形式的 Tsallis 熵上显著优于 Tsallis-DQN，而且表现出与最先进的 Shannon 熵算法相当的性能。

May, 2022

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

对线性可解的 MDP 和线性二次调节器采用 Tsallis 熵来实现正则化，从而在探索和控制规律的稀疏性之间取得平衡。

Mar, 2024

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Mar, 2021

用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习

本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程，引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布，并与利用因果熵正则化的软 Markov 决策过程进行了比较，在强化学习问题中应用稀疏 MDP 方法，优于现有方法在收敛速度和性能方面。

Sep, 2017

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

强化学习中的扩散过程奖励塑造

本研究利用随机热力学和系统动力学的原理，探索通过扩散过程进行奖励塑造的方法，为探索 - 开发权衡提供了一个优雅的框架，并揭示了信息熵、随机系统动力学之间的关系及其对熵产生的影响，从而构建了一个双重框架，可作为派生有效策略的最大熵程序或计算信息成本和利益的修改成本优化程序的解释，为 RL 中的信息导向公式提供了新的视角。

Jun, 2023

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022

Q-Munchausen 强化学习

本文针对 Munchausen 强化学习在 Tsallis sparsemax 策略下无法表现出优越性能的问题，提出了基于 Tsallis Entropy 的 $q$-logarithm/exponential 方法，解决了传统 logarithm 和非 logarithmic Tsallis entropy 之间的不匹配问题，使 M-RL 能在 Tsallis entropy 框架下实现隐式的 KL 规则正化，同时在标准测试问题上取得了超越表现。

May, 2022

如果最大熵强化学习是答案，那么问题是什么？

本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用，该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效，其可以提供一定的洞见，指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。

Oct, 2019

最大扩散强化学习

通过利用各态过程的统计力学，提出了一种称为最大扩散增强学习的方法，在单次部署中可使代理能够连续学习，无论如何初始化。该方法可以去除代理经验之间的相关性，证明了其优于流行基准的最优性能，并为增强学习代理（如行走机器人和自动驾驶车辆）的透明和可靠决策铺平了道路。

Sep, 2023