具有深度能量策略的强化学习

Feb, 2017

Reinforcement Learning with Deep Energy-Based Policies

Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, Sergey Levine

TL;DR提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Abstract

We propose a method for learning expressive energy-based policies for continuous states and actions, which has been feasible only in tabular domains before. We apply our method to learning maximum entropy policies, resulting into a new algorithm, called →

expressive energy-based policies soft q-learning boltzmann distribution amortized stein variational gradient descent actor-critic methods

发现论文，激发创造

最大熵深度强化学习的软策略梯度方法

本文提出了一种新的深度强化学习算法，利用基于熵正则化的期望回报目标推导出软策略梯度，将其与软 Bellman 方程相结合，得到了名为 DSPG 的最大熵深度强化学习算法，该算法采用双重采样方法确保学习的稳定性，有效提高了表现，克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。

Sep, 2019

通过基于能量的标准化流进行最大熵强化学习

我们引入了一种基于能量的正则化流（EBFlow）建模的新的最大熵强化学习框架，该框架集成了策略评估步骤和策略改进步骤，实现了单一的目标训练过程，并且能够计算用于策略评估目标的软值函数，同时支持多模态动作分布的建模和高效的动作采样。我们在 MuJoCo 基准套件和 Omniverse Isaac Gym 模拟的多个高维机器人任务上进行了实验评估，结果表明我们的方法相较于广泛采用的代表性基准方法具有更优越的性能。

May, 2024

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

基于能量模型的模型规范化计划

本研究讨论利用学习到的动力学模型进行规划，并提出使用环境状态转换的能量估计来规范该模型以实现样本有效学习，结果表明该方法可以在几分钟的经验中实现具有竞争力表现的学习。

Oct, 2019

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

基于交叉熵引导策略的连续动作 Q 学习

本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

S$^2$AC：基于能量的 Stein Soft Actor Critic 强化学习

学习表达性随机策略而不是确定性策略已经被提出，以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC)，这是一种能够高效学习表达性策略的最大熵强化学习算法，通过使用参数化的 Stein 变分梯度下降（SVGD）作为基础策略，并导出了该策略的熵的闭合表达式。实证结果表明，在多目标环境中，S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解，并在 MuJoCo 基准测试中胜过 SAC 和 SQL。

May, 2024

可组合的深度强化学习在机器人操作中的应用

本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用，证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率，并且可以通过将学习到的策略组合创建新的策略，从而在真实世界机器人操作中提供高效的工具。

Mar, 2018