本文介绍了一种基于 Bellman 备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。
Jul, 2020
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。
Feb, 2022
本文提出了一种基于预期 Sarsa 的强化学习算法,使用粒子筛选器估计共同代理的信念更新,并以安全游戏示例说明了所学习的策略。
May, 2020
研究了强化学习在具有领导者 - 追随者结构的情境马尔可夫博弈中学习 Quantal Stackelberg Equilibrium 的问题,提出了基于函数逼近的在线和离线问题的高效算法,利用最大似然估计来学习追随者的量化响应模型,并结合模型自由或基于模型的强化学习解决领导者的决策问题,同时利用不确定性来实现对乐观和悲观算法的估计,并在线性和短视场景下具备计算效率。
Jul, 2023
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本文研究了斯塔克伯格博弈中学习动态的收敛性,并提出了一种基于梯度的学习更新规则,用于训练生成对抗网络。
Jun, 2019
Stackelberg 博弈是算法博弈论的一个重要应用,通过引入附加信息和在线设置,可以实现无遗憾学习。
Feb, 2024