通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
本文澄清了强化学习的遗憾下限,提出了一个对于REGAL论文中的定理6的推测,并提出了一个比Bartlett和Tewari 2009所提出的更严格的下限。
Aug, 2016
本研究考虑了在未知的离散马尔科夫决策过程下,使用平均奖励准则的强化学习问题,其中学习者从一个初始状态开始,通过单个观察流与系统进行交互。我们提供了KL-UCRL算法的新分析,为该算法建立了高概率遗憾界,对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。
Mar, 2018
针对有 $S$ 个状态、$A$ 个行动、混合时间参数 $t_{mix}$ 的均匀遍历马尔可夫决策过程,在简单的乐观算法下,$T$ 步后 $\tilde{O}(\sqrt{t_{mix}SAT})$ 的遗憾度可推导出,这些界限是所有给定参数的最优依赖关系下,普遍的非情节性问题的首个遗憾度界限;唯一可以改善它们的方法是使用可选的混合时间参数。
Aug, 2018
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
本文的关键是通过建立一种新的“裁剪”遗憾分解技术,证明了乐观算法能够在有限的步数内以对数遗憾实现相应动态规划问题的最优解,并适用于广泛的最优算法。
May, 2019
该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法,并提供了针对最优非静态策略的性能保证。给出了在MDP总变差方面的差错的上限,这是一般强化学习设置的第一个变分差错界限。
提出了RestartQ-UCB算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
Oct, 2020
本文提出了基于问题的独立的新样本复杂度和后悔下限,重点放在了非固定转移核情况下的情况,我们提出了新的样本下限并证明了我们的发现。
我们提出了一种乐观的Q学习算法,用于在额外假设下的平均奖励强化学习中实现遗憾最小化,该额外假设是对底层MDP的所有策略来说,访问某些频繁状态s0的预期时间是有限的并且上界为H。
Jul, 2024