深度强化学习中的战术乐观主义和悲观主义

Feb, 2021

深度强化学习中的战术乐观主义和悲观主义

Tactical Optimism and Pessimism for Deep Reinforcement Learning

Ted Moskovitz, Jack Parker-Holder, Aldo Pacchiano, Michael Arbel, Michael I. Jordan

TL;DR该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Abstract

In recent years, deep off-policy actor-critic algorithms have become a dominant approach to reinforcement learning for continuous control. One of the primary drivers of this improved performance is the use of pes

reinforcement learning continuous control optimism pessimism multi-arm bandit

发现论文，激发创造

乐观演员 - 评论家算法实现更好的探索

本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

深度强化学习中的悲观和乐观动态探索

通过利用悲观的状态 - 动作值函数更新，以及通过可解释参数独立控制悲观 / 乐观程度，Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡，可以根据任务的性质，在恰当配置的悲观 / 乐观参数情况下胜过现有算法。

Jun, 2024

强化学习中的乐观和悲观演员：拆分探索与利用

优化和悲观主动者强化学习 (OPARL) 框架采用乐观和悲观两个角色的独特方法，在深度神经网络的泛化性能方面取得了显著提升。

Dec, 2023

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

情节性强化学习中乐观性的统一视角

本文提供了一个基于 Lagrangian 对偶的一般性框架，用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法，并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价；此外，该框架还能够处理实现复杂的问题，并可以对最近提出的方法进行简单的数学建模。

Jul, 2020

学习悲观主义以实现鲁棒和高效的离策略强化学习

本文提出一种新的学习策略 —— 广义悲观学习（GPL），其利用可学习的罚值对目标回报进行悲观估计，在双 TD-learning 方法下训练策略评估模型，有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题，在传统的强化学习算法中取得了最先进的水平。

Oct, 2021

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

离线强化学习的 Bellman 一致悲观算法

本文介绍了一种 Bellman-consistent 的悲观算法，在深度学习的数据集中使用较为普遍，通过对探索性场景的标准 Bellman 闭合性理论保证了算法的鲁棒性，并且在样本复杂度上比其他算法有显著提高。

Jun, 2021

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020