空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法
本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
Mar, 2018
扩展进化博弈论通过允许玩家策略及其回报随着遗传变异的选择而进化,提供了一般框架来理解策略和回报在迭代博弈中的共同进化过程,揭示出利益和成本之间的权衡使得合作的瓦解是如此极端以至于合作的平均回报可能下降,即使相互合作的潜在回报仍在增加。
Feb, 2014
基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居,并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动,进而导致具有相似策略的智能体聚集,增加网络互惠性和加强群体合作。
May, 2024
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。
Oct, 2023
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
Oct, 2021
提出了一种基于进化学习的框架,利用机制设计中的对等预测方法添加虚拟奖励,使多智体强化学习任务中的智能体能够达成合作,从而实现了无偏见状态表示的学习。在猎食者 - 被猎物,红绿灯和星际争霸等任务中,框架的表现达到了最先进水平。
Jun, 2021
在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡,研究人员修改强化学习方法来构建行为明了,好相处,可激怒且宽容的代理,通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。
Jul, 2017
调查在博弈论情境中激发合作的策略,分析现有的合作策略对重复游戏中促进群体行为的有效性,并在具有指数增长代理人群体的情境中建立均衡解和奖励结构。通过模拟实现将理论概念与实际应用相结合。
Sep, 2023