绿色安全中极小后悔的强化学习
本研究提出了一种新的游戏模型 GSG-I,结合了顺序移动和实时信息等关键元素,设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法 DeDOL 来计算巡逻策略,以对抗最佳响应的攻击者,探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度 Q-Learning 应用于安全游戏。
Nov, 2018
无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。
Feb, 2024
本文旨在通过引入一种 Bellman 方程式来计算政策的懊悔,提出了一种基于动态规划算法的方法,以便为具有不确定成本和转移函数的 SSP UMDPs 规划,该方法精确地优化了具有独立不确定性的 UMDPs 的最小化极大遗憾,并通过选项扩展了该方法,以使计算和解决方案质量之间存在权衡。在人造和实际领域中评估我们的方法,显示它明显优于现有的基线。
Dec, 2020
通过 von Neumann 最小极大定理,我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了,在这种对抗性环境中,最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关:它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释,因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式,我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界,而提供了对抗者的明确最优策略的下界。
Mar, 2009
本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法,能够有效处理部分观测状态,并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。
Oct, 2017
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题,并给出了一组正负结果,其中提出的新算法在普通的策略类别小或对手策略类别小时,可取得平均的 regret 较小的结果。
Mar, 2022