机遇性偶发式强化学习

Oct, 2022

Opportunistic Episodic Reinforcement Learning

Xiaoxiao Wang, Nader Bouacida, Xueying Guo, Xin Liu

TL;DR本文提出和研究机会主义强化学习 - 一种新型强化学习问题变体，在外部环境条件下选择次优动作的后悔因子会发生变化。我们的算法通过引入变动因子相关的乐观估计来平衡探索和利用的权衡，并验证通过仿真实现了该算法。

Abstract

In this paper, we propose and study opportunistic reinforcement learning - a new variant of reinforcement learning problems where the regret

reinforcement learning regret variation factor exploration-exploitation trade-off oppucrl2

发现论文，激发创造

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

通过乐观策略搜索和规划实现高效的基于模型的强化学习

本文提出了一种基于模型的加强学习算法（H-UCRL），通过加强其输入空间并直接使用先验不确定性来提高探索，使得优化策略时也能区分先验不确定性和先验确定性。同时，本文针对 H-UCRL 分析了一般的后悔界，并构建了一个在高斯过程模型下证明的可证明次线性的界，进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明，本文所提出的算法在已知惩罚的情况下可以显著加速学习，并且在现有的基于模型的加强学习算法中具有广泛的适用性。

Jun, 2020

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

超越乐观：具有部分可观察奖励的探索

通过提出一种新的探索策略，克服现有方法的局限性，即使奖励不总是可观察到，也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境（有或没有不可观察的奖励），并展示我们的方法优于现有方法。

Jun, 2024

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

分层强化学习：面对不确定性的悲观和恒定遗憾

提出了一个学习框架，该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组，以分别处理他们的不同探索风险容忍度，并研究了将 Pessimistic Value Iteration 作为利用算法的应用。

May, 2022

自适应无奖励探索

我们提出了一种新的自适应奖励免费探索方法，直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限，可以看作是 Fiechter 算法的变体，该算法最初是针对另一种目标：最佳策略识别。

Jun, 2020

可证明自我对弈算法用于竞争性强化学习

研究自博弈算法在 Markov 游戏中的应用，提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法，并证明了其在策略最佳化中的有效性和高样本利用率。

Feb, 2020

上置信强化学习中的探索优化

UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进，以减少探索来优化分布，理论上改善了 UCRL2 算法，在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。

Apr, 2020

情节性强化学习中乐观性的统一视角

本文提供了一个基于 Lagrangian 对偶的一般性框架，用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法，并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价；此外，该框架还能够处理实现复杂的问题，并可以对最近提出的方法进行简单的数学建模。

Jul, 2020