混沌中的阶梯：通过策略路径修剪和增强对普适 DRL 算法进行简单有效的改进

Mar, 2023

混沌中的阶梯：通过策略路径修剪和增强对普适 DRL 算法进行简单有效的改进

The Ladder in Chaos: A Simple and Effective Improvement to General DRL Algorithms by Policy Path Trimming and Boosting

Hongyao Tang, Min Zhang, Jianye Hao

TL;DR本文研究深度强化学习代理策略网络在学习过程中的演化，发现参数更新存在重大方向和次要方向，提出了基于此发现的简单而有效的方法 Policy Path Trimming and Boosting (PPTB)，并证明其与 TD3 和 RAD 在 MuJoCo 和 DMC 环境中结合使用可以带来更好的性能改进。

Abstract

Knowing the learning dynamics of policy is significant to unveiling the mysteries of reinforcement learning (RL). It is especially crucial yet challenging to Deep RL, from which the remedies to notorious issues like sample inefficiency and learning instability could be obtained. In thi

reinforcement learning deep reinforcement learning policy networks temporal svd pptb

发现论文，激发创造

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019

PIPPS: 鲁棒的基于模型的策略搜索算法，能够应对混沌状态下的问题

探讨了深度学习和基于模型的强化学习中梯度爆炸问题的根源和解决方法，提出了基于概率推断和粒子策略搜索的 PIPPS 框架，以及计算路径导数深度并给予低方差估计器更大权重以改进 reparameterization 梯度的 total propogation 算法。

Feb, 2019

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

调节轨迹生成器的政策

本文提出了一种利用简单策略调制轨迹生成器的体系结构，通过深度强化学习和进化策略学习出具有可控行为的四足机器人运动，实现了从 IMU 观测数据中控制速度的步态诱导。

Oct, 2019

基于利普希茨有界策略网络的强化学习的鲁棒性

该研究利用深度强化学习探讨了鲁棒策略网络的优势，通过分析其在振荡摆和 Atari Pong 等问题上的实证性能和稳健性，证明了具有小 Lipschitz 界限的策略网络相比由普通多层感知机或卷积神经网络组成的无约束策略在扰动、随机噪声和有针对性的对抗攻击方面更加稳健。此外，研究还发现选择一个具有非保守的 Lipschitz 界限和具有表达力的非线性层结构的策略参数化方法可以更好地平衡性能和稳健性的权衡，优于现有基于谱标准化的最新方法。

May, 2024

高维度策略学习的泛化动态的强化感知器

提出了一种可以捕捉多种学习协议的 RL 可解高维模型，并将其典型动态推导为一组封闭形式 ODE，我们推导出了学习率和任务难度的最优计划，同时还展现了丰富的行为，包括稀疏奖励下的延迟学习；因奖励基线的不同而产生的各种学习模式；以及由奖励严格性驱动的速度 - 准确性权衡。与 “Bossfight” 的 Procgen 游戏和 Arcade Learning Environment 游戏 “Pong” 的变体的实验还表明，在实践中存在速度 - 准确性权衡问题。

Jun, 2023

深度原始 - 对偶强化学习：利用贝尔曼对偶加速演员 - 评论家算法

基于深度神经网络的参数 Primal-Dual pi 学习方法，旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题，通过基本线性 Bellman 方法对价值和策略函数进行原始对偶更新，从而更加有效地进行价值和策略更新，在与同类方法比较的测试中表现明显优于最相关的基准方法

Dec, 2017

在潜空间中使用轨迹聚类发现深度强化学习策略中的行为模式

利用维度降低和轨迹聚类在神经网络的潜在空间中，研究深度强化学习代理的行为模式和改进方法。

Feb, 2024