序贯社交困境中的多智体强化学习
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
Mar, 2018
本研究提出了一种通用的在线强化学习算法,该算法能够向其合作伙伴表现出互惠行为,并在与自私代理一起学习时能够诱发更广泛的群体互惠行为,无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明,实施互惠行为的代理受到其合作伙伴行为的强烈影响。
Mar, 2019
构建一个条件纯合作的智能体来解决社会困境问题,使用强化学习技术,仅仅基于结果而非意图,可以构建出好的策略,在真实社会困境中有效,并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。
Oct, 2017
在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡,研究人员修改强化学习方法来构建行为明了,好相处,可激怒且宽容的代理,通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。
Jul, 2017
本文介绍了第一个基于计算模型的人类行为在重复性囚徒困境博弈中的研究,该模型通过整合 168,386 个人类的决策数据,实现了成功的数据拟合和预测行为的目的,并在实验设计中展示了如何最好地促进人类合作。
Jan, 2016
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
Oct, 2021
基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居,并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动,进而导致具有相似策略的智能体聚集,增加网络互惠性和加强群体合作。
May, 2024
本文提出了一种新的马尔可夫博弈模型,即循环顺序社交困境 (CSSD),并通过深度强化学习和图形化 Tit-for-tat 策略成功解决了非对称合作问题。
Jun, 2022
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。
Oct, 2023