机遇性偶发式强化学习
本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
May, 2019
本文提出了一种基于模型的加强学习算法(H-UCRL),通过加强其输入空间并直接使用先验不确定性来提高探索,使得优化策略时也能区分先验不确定性和先验确定性。同时,本文针对 H-UCRL 分析了一般的后悔界,并构建了一个在高斯过程模型下证明的可证明次线性的界,进而表明乐观探索可以轻松地与最先进的强化学习算法以及不同的概率模型相结合。实验表明,本文所提出的算法在已知惩罚的情况下可以显著加速学习,并且在现有的基于模型的加强学习算法中具有广泛的适用性。
Jun, 2020
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
提出了一个学习框架,该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组,以分别处理他们的不同探索风险容忍度,并研究了将 Pessimistic Value Iteration 作为利用算法的应用。
May, 2022
我们提出了一种新的自适应奖励免费探索方法,直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限,可以看作是 Fiechter 算法的变体,该算法最初是针对另一种目标:最佳策略识别。
Jun, 2020
研究自博弈算法在 Markov 游戏中的应用,提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法,并证明了其在策略最佳化中的有效性和高样本利用率。
Feb, 2020
UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进,以减少探索来优化分布,理论上改善了 UCRL2 算法,在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。
Apr, 2020
本文提供了一个基于 Lagrangian 对偶的一般性框架,用于设计、分析和实施当面临不确定性的时候的乐观加强学习算法,并证明了构建乐观 MDP 的模型乐观算法与价值乐观 DP 算法等价;此外,该框架还能够处理实现复杂的问题,并可以对最近提出的方法进行简单的数学建模。
Jul, 2020