斯塔克伯格批量策略学习
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的Stackelberg博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2),优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
本文介绍了一种基于Bellman备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示MDP示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。
Jul, 2020
本文介绍了在具有线性函数表示的情况下,在折扣无限时间MDPs中分别对策略和目标策略的价值进行估计时,即使存在实现性并观察到精确奖励和转移函数以及为问题类提供最佳先验数据分布,也派生出指数的信息论下限,并引入了一个新的“oracle+ batch algorithm”框架来证明适用于每个分布的底限。工作显示了批处理和在线强化学习之间的指数分离。
Dec, 2020
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本文介绍了一种用于强化学习的Stackelberg游戏模型——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前RL训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于Stackelberg Policy Gradient算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。
Feb, 2022
研究了强化学习在具有领导者-追随者结构的情境马尔可夫博弈中学习Quantal Stackelberg Equilibrium的问题,提出了基于函数逼近的在线和离线问题的高效算法,利用最大似然估计来学习追随者的量化响应模型,并结合模型自由或基于模型的强化学习解决领导者的决策问题,同时利用不确定性来实现对乐观和悲观算法的估计,并在线性和短视场景下具备计算效率。
Jul, 2023
本研究解决了基于模型的强化学习在在线与离线设置中的悔恨与样本复杂度界限的问题。通过引入乐观与悲观规划程序,在简单的模型学习框架下,我们实现了无地平线和二阶界限的强悔恨分析。我们的算法简洁且标准,能够有效利用丰富的函数逼近能力,具有重要的理论与实际应用价值。
Aug, 2024