关键词markov perfect nash equilibrium
搜索结果 - 2
- 网络聚合马尔可夫博弈中的风险敏感多智能体强化学习
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不 - 极小改动 Markov 游戏以获得任意 Nash 均衡和价值
研究了游戏修改问题,其中一个仁慈的游戏设计者或恶意对手修改了零和马尔可夫博弈的回报函数,使得目标确定性或随机策略配置成为唯一的马尔可夫完美纳什均衡,并且其价值在目标范围内,以最小化修改成本。我们表征了可以作为某个游戏唯一均衡的策略配置集合,