通过后验采样的随机最短路径模型在线学习
该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码能力。
Jun, 2013
本文研究了连续状态动作空间中强化学习的基于模型的后验抽样(PSRL),提出了第一个后验抽样的遗憾上界,并开发了 MPC–PSRL 算法来选择动作,通过贝叶斯线性回归捕获模型中的不确定性,在基准连续控制任务中实现了最先进的样本效率,并与无模型算法的渐近性能相匹配。
Nov, 2020
本文介绍了一种解决随机最短路径问题的算法,其中代理必须通过在有限次数的游戏中获得最佳策略,从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系,本文提出了一种不依赖于最小代价的算法,并展示了任何学习算法在最坏情况下都要有至少 Omega(Bstar 根号乘以 S、A、K 的数量)的悔恨。
Feb, 2020
本文提出了后验采样强化学习算法,用于处理无限期零和随机博弈问题,在对手可以采取任意自适应策略的情况下,实现贝叶斯遗憾度的上界,并以平均奖励作为参数进行优化。该算法突破了当前数据的下限,并提高了效率。
Sep, 2021
本文研究了随机最短路问题,提出了一种基于有限阶段马尔科夫决策过程的新算法,其中最小化代理与模型之间的遗憾的上界可达到 $ \widetilde O (\sqrt { (B_\star^2 + B_\star) |S| |A| K})$。根据实验,该算法大幅改善了 Rosenberg 等人的遗憾上界,并且对于期望成本小于 1 的情况,提出了一种完全匹配的下界。
Mar, 2021
本文研究计算马尔科夫决策过程中随机最短路径问题中,学习合理策略的采样复杂度,得到在有选项模型的情况下,学习合理策略的采样下界,并提出一种能够匹配界限的算法。同时,探讨在没有选项模型的情况下学习最佳策略识别问题中的高效学习可能性,并证明在一些假设下是实现可能的。
Oct, 2022
本文旨在解决随机最短路径问题中的学习问题,并设计了一种名为 EB-SSP 的基于模型的算法。该算法通过探索奖励来诱导一个乐观的 SSP 问题,其值迭代方案已被证明会收敛,并获得与下限之间的效果。同时,该算法在不使用任何先前知识的情况下获得最小化后悔率,并在如正成本或一般成本等各种情况下均有所改善。
Apr, 2021
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。
Jun, 2022
我们提出了一种基于扩展值迭代和细粒度方差感知置信集的新算法,用于解决具有线性混合转移内核的随机最短路径问题,其在减少限制性假设的同时实现了接近极小极大的算法性能。
Feb, 2024
本论文研究了具有线性函数逼近的随机最短路径问题,提出了一种使用 Hoeffding 类型置信度集的新算法,能够实现次线性后悔保证。同时,对于在 $c_{min}=0$ 的情况,可以保证近似次立方的后悔保证。此外,通过设计改进的贝恩斯坦置信度集,改进的算法能够保证近乎最优的后悔保证。
Oct, 2021