Feb, 2024

网络聚合马尔可夫博弈中的风险敏感多智能体强化学习

TL;DR使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同,具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。