深度强化学习中的悲观和乐观动态探索

Jun, 2024

深度强化学习中的悲观和乐观动态探索

Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning

Bahareh Tasdighi, Nicklas Werge, Yi-Shan Wu, Melih Kandemir

TL;DR通过利用悲观的状态 - 动作值函数更新，以及通过可解释参数独立控制悲观 / 乐观程度，Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡，可以根据任务的性质，在恰当配置的悲观 / 乐观参数情况下胜过现有算法。

Abstract

off-policy actor-critic algorithms have shown promise in deep reinforcement learning for continuous control tasks. Their success largely stems from leveraging pessimistic state-action value function updates, which effectively address function approximation errors and improve performanc

off-policy actor-critic algorithms deep reinforcement learning pessimism optimism usac

发现论文，激发创造

乐观演员 - 评论家算法实现更好的探索

本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

深度强化学习中的战术乐观主义和悲观主义

该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Feb, 2021

强化学习中的乐观和悲观演员：拆分探索与利用

优化和悲观主动者强化学习 (OPARL) 框架采用乐观和悲观两个角色的独特方法，在深度神经网络的泛化性能方面取得了显著提升。

Dec, 2023

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

离线强化学习的不确定性加权演员 - 评论家算法

提出了一种名为 Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于 dropout 的不确定性估计方法来检测 out-of-distribution（OOD）状态 - 动作对并相应地减小其在训练目标中的贡献，实验结果表明 UWAC 算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线 RL 算法。

May, 2021

概率演员 - 评论家：利用 PAC-Bayes 不确定性学习探索

Probabilistic Actor-Critic (PAC) algorithm improves continuous control performance by integrating stochastic policies and critics, explicitly modeling critic uncertainty through PAC-Bayes analysis, and adapting exploration strategy in deep reinforcement learning.

Feb, 2024

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

软 - 鲁棒的演员 - 评论家策略梯度算法

本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法，能够学习针对不确定性模型的最优策略且避免过于保守，实验证明其收敛性和高效性。

Mar, 2018

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023