情节性强化学习中乐观性的统一视角

Jul, 2020

情节性强化学习中乐观性的统一视角

A Unifying View of Optimism in Episodic Reinforcement Learning

Gergely Neu, Ciara Pike-Burke

TL;DR本文提供了一个基于 Lagrangian 对偶的一般性框架，用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法，并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价；此外，该框架还能够处理实现复杂的问题，并可以对最近提出的方法进行简单的数学建模。

Abstract

The principle of optimism in the face of uncertainty underpins many theoretically successful reinforcement learning algorithms. In this pa

optimism uncertainty reinforcement learning dynamic programming function approximation

发现论文，激发创造

超越乐观：具有部分可观察奖励的探索

通过提出一种新的探索策略，克服现有方法的局限性，即使奖励不总是可观察到，也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境（有或没有不可观察的奖励），并展示我们的方法优于现有方法。

Jun, 2024

深度强化学习中的战术乐观主义和悲观主义

该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Feb, 2021

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

广义线性函数逼近强化学习中的乐观主义

本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法，并在乐观闭合假设下分析其性能，证明了其具有更低的复杂度，并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。

Dec, 2019

通过乐观策略搜索和规划实现高效的基于模型的强化学习

本文提出了一种基于模型的加强学习算法（H-UCRL），通过加强其输入空间并直接使用先验不确定性来提高探索，使得优化策略时也能区分先验不确定性和先验确定性。同时，本文针对 H-UCRL 分析了一般的后悔界，并构建了一个在高斯过程模型下证明的可证明次线性的界，进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明，本文所提出的算法在已知惩罚的情况下可以显著加速学习，并且在现有的基于模型的加强学习算法中具有广泛的适用性。

Jun, 2020

强化学习的乐观主义和库尔巴克 - 莱布勒散度

本文研究有限 MDP 情景下基于模型的强化学习，提出使用 KL 散度实现乐观策略的目标约束，并证明基于 KL-UCRL 算法相较于 UCRL2 算法在经典评估标准中具有显著改善表现，提供了相对应的几何学分析进行说明。

Apr, 2010

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

机遇性偶发式强化学习

本文提出和研究机会主义强化学习 - 一种新型强化学习问题变体，在外部环境条件下选择次优动作的后悔因子会发生变化。我们的算法通过引入变动因子相关的乐观估计来平衡探索和利用的权衡，并验证通过仿真实现了该算法。

Oct, 2022

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019