演化博弈中合作的崩溃
本文介绍了第一个基于计算模型的人类行为在重复性囚徒困境博弈中的研究,该模型通过整合 168,386 个人类的决策数据,实现了成功的数据拟合和预测行为的目的,并在实验设计中展示了如何最好地促进人类合作。
Jan, 2016
合作行为在人类社会和自然界中普遍存在,本研究使用强化学习中的 SARSA 算法来研究进化博弈论,评估其对合作率的影响。
Jun, 2024
调查在博弈论情境中激发合作的策略,分析现有的合作策略对重复游戏中促进群体行为的有效性,并在具有指数增长代理人群体的情境中建立均衡解和奖励结构。通过模拟实现将理论概念与实际应用相结合。
Sep, 2023
本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017
构建一个条件纯合作的智能体来解决社会困境问题,使用强化学习技术,仅仅基于结果而非意图,可以构建出好的策略,在真实社会困境中有效,并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。
Oct, 2017
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
Mar, 2018
本研究提出了一种通用的在线强化学习算法,该算法能够向其合作伙伴表现出互惠行为,并在与自私代理一起学习时能够诱发更广泛的群体互惠行为,无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明,实施互惠行为的代理受到其合作伙伴行为的强烈影响。
Mar, 2019
本文讨论了进化博弈理论作为一种强大而统一的数学工具,用于研究集体行为的演化,总结了作者最近通过进化博弈理论方法所涉及的一些研究方向,包括:i)随机进化博弈中(稳定)均衡数量的统计性质分析,以及 ii)在技术发展竞赛中建模安全行为的演化及先进人工智能技术带来的风险。最后,对未来研究者提出了展望和一些建议。
Nov, 2023
本文研究社会困境中人们的合作行为,提出人类天生具有合作的倾向,并建立了第一个能够预测人类合作行为的模型,该模型考虑到人们能够形成联盟来预测社会困境的演化,并根据最乐观的预测来行动。实验结果表明,即使在没有外部控制的情况下,人们也能够在一次性的社会困境中合作。
Jul, 2013