通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法,并提供了针对最优非静态策略的性能保证。给出了在MDP总变差方面的差错的上限,这是一般强化学习设置的第一个变分差错界限。
May, 2019
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了MPC–PSRL算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Nov, 2020
本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性MDP设置中,我们的算法产生的遗憾与现有基于后验采样的探索算法相比,随着维度线性增长而非二次依赖。
Aug, 2022
本研究提出了一种基于后验抽样的强化学习算法Safe PSRL,它能够在不需要安全策略的前提下有效地平衡探索和开发,并通过采用悲观主义的思想仅受到有界的约束违规,从而在理论和实践上得到了良好的表现。
Jan, 2023
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
基于后验抽样的算法在约束马尔可夫决策过程(CMDP)的无限时间不折扣设置中提供了近最优的遗憾界限,同时在实证上比现有算法更具优势。
Sep, 2023
本文研究了具有未知转移和观测模型的POMDPs中的情节性学习问题,并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。
Oct, 2023
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为O(d√(H^3 T log T))的方法,其中d表示转移核的维度,H表示规划时间,T表示总交互次数。相对于线性混合马尔可夫决策过程的先前基准(Osband和Van Roy,2014)优化了O(√log T)因子,我们的方法采用了面向值的模型学习视角,引入解耦和方案和方差减少技术,超越了传统分析对置信区间和集中不等式的依赖,更有效地规范贝叶斯遗憾界限。
Mar, 2024