最大熵正则化的多目标强化学习

ICMLMay, 2019

Maximum Entropy-Regularized Multi-Goal Reinforcement Learning

Rui Zhao, Xudong Sun, Volker Tresp

TL;DR通过加权熵的方法构建的一个新的多目标强化学习优化目标，同时配合最大熵法优化，通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验，证实了该方法在性能和样本效率方面具有显著的改进。

Abstract

In multi-goal reinforcement learning, an agent learns to achieve multiple goals with a goal-conditioned policy. During learning, the agent first collects the trajectories into a replay buffer, and later these tra

multi-goal reinforcement learning goal-conditioned policy bayesian perspective weighted entropy maximum entropy-based prioritization framework

发现论文，激发创造

长时间多目标强化学习的最大熵增益探索

本文探讨了当测试目标分布过于远离时，多目标强化学习应当追求怎样的目标，提出了优化历史完成目标分布熵的内在目标，通过在目标空间中极少被探索区域内的历史完成目标的追求实现探索，成功提高了长期目标任务中的数据利用效率。

Jul, 2020

最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题

该论文证明了最大熵（MaxEnt）强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略，是一种简单并具有吸引力形式保证的鲁棒强化学习方法。

Mar, 2021

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

最大熵深度强化学习的软策略梯度方法

本文提出了一种新的深度强化学习算法，利用基于熵正则化的期望回报目标推导出软策略梯度，将其与软 Bellman 方程相结合，得到了名为 DSPG 的最大熵深度强化学习算法，该算法采用双重采样方法确保学习的稳定性，有效提高了表现，克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。

Sep, 2019

熵正则化马尔科夫决策过程的统一视角

提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架，通过使用条件熵来对联合状态 - 动作分布进行正则化，将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体，并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。

May, 2017

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

实践中是否需要熵奖励？

本文研究熵作为内在奖励的效果，并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家（SAC）中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估，并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此，我们建议要么将熵奖励归一化为零平均值（SACZero），要么仅仅从策略评估中删除它（SACLite）以获得更好的实际结果。

Jan, 2022