近乎最小最大化优化强化学习在折扣 MDPs 上
本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
May, 2019
研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+,其在 Bernstein 类型的探索奖励的帮助下,具有常数估计的 L2 误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。
Jun, 2022
本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。
Mar, 2018
使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题,证明了该算法得到了比以前更好的失望值,并且在并发强化学习中表现出了较低的本地切换成本。
Apr, 2020
这篇论文介绍了一种具有最小最大后悔度的可行算法,该算法通过使用一种新颖的子程序,即 Projected Mitigated Extended Value Iteration(PMEVI),来高效地计算偏差受限最优策略。同时,该算法不需要先前关于偏差函数的信息。
Jun, 2024
设计了一个计算有效的算法,通过将平均奖励设定近似为折扣设定,并且在适当调整贴现因子时,通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
May, 2024
本文研究了具有线性函数逼近的增强学习,其中马尔科夫决策过程(MDP)的潜在转移概率核心为线性混合模型,并且学习代理具有单个基础核函数的积分或采样神谕的访问。 基于我们提出的新的 Bernstein 型自归一类化不等式,我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法,以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。 我们还提出了新的算法 $ ext {UCLK}^{+}$,适用于同一类 MDP 的折扣情况,这两种算法分别在最小化最大性上达到了近乎最小值,是线性函数逼近 RL 的第一篇计算有效性,近乎最小值的论文。
Dec, 2020
本文研究了有限时间 MDPs 中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Mar, 2017
本文提出了一种基于核变量的乐观算法 Kernel-UCBVI,以及使用平滑核估计 MDP 奖励和转移的方法,以在探索和开发之间有效平衡,从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中,本文通过实验验证了该方法。
Apr, 2020
基于 “面对不确定性的乐观原则” 的算法,使用有限状态 - 动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异,该算法在已知 $sp (h^{*})$ 的情况下实现 MDP 的遗憾界为 $\tilde {O}(\sqrt {SAHT})$,这个结果超过了先前的最佳遗憾界 $\tilde {O}(S\sqrt {AHT})$,并且匹配了遗憾下界。此外,对于有限直径 $D$ 的 MDP,我们证明了 $ ilde {O}(\sqrt {SADT})$ 接近于最佳遗憾上界。
Jun, 2019