元强化学习中的测试时后悔最小化
在此篇文章中,我们考虑对抗性在线多任务强化学习设置,每一次多任务中学习者需要在未知的有限数量 K 的 MDP 模型中,在有限的时间内学习到最优策略并减小遗憾值。我们提出了一种将模型从众多任务中分离开来的方法,并证明了任意学习算法的遗憾下界为 Ω(K√DSAH) 和一类均匀 - 好的聚类 - 学习算法的样本复杂度下界为 Ω(K/λ²)。最后,我们提出了一种算法,通过聚类阶段的规定数量和学习阶段的学习率,获得了与 K 和 λ² 的相关性最优的样本复杂度保证和遗憾保证。
Jan, 2023
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为 $ O (SAH)$,较以前的算法提高了 $S^5A^3$ 倍的效率。
Oct, 2021
一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题,提出了贝叶斯和频率主义算法,评估了不同的环境。
Feb, 2022
本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL,证明了探索具有贪心策略可以实现紧密的极小极大性能,从而完全避免使用 full-planning,而复杂度降为 S,并通过实时动态规划进行了新颖的分析。
May, 2019
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning),通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap),以及使用最大化次优性策略的对抗任务找到最优策略,以提高元强化学习算法在任务分布变化下的泛化能力和性能效率,试验表明该算法具有优异性能。
Jun, 2020
探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题,提出了一种基于上置信强化学习的 Q 函数的乐观估计算法,证明了算法的性能界限和下界。
May, 2019
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022