具有不完全信息的社会困境中的后果主义条件合作
本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017
在社会困境中建立AI代理能够在个体私利和集体福利间取得平衡,研究人员修改强化学习方法来构建行为明了,好相处,可激怒且宽容的代理,通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。
Jul, 2017
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
Mar, 2018
本研究提出了一种通用的在线强化学习算法,该算法能够向其合作伙伴表现出互惠行为,并在与自私代理一起学习时能够诱发更广泛的群体互惠行为,无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明,实施互惠行为的代理受到其合作伙伴行为的强烈影响。
Mar, 2019
本文提出了在多个智能体环境中,为每个RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准RL和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
这篇研究论文介绍了一种名为 Hidden Agenda 的社交推理游戏,用于研究多代理合作中的合作决策和学习智能体在未知背景下的团队合作。通过强化学习算法,这些代理可以学习各种行为,包括在没有语言交流的情况下的搭档和投票。
Jan, 2022
本研究旨在了解在没有特定假设的情况下,我们是否能可靠地学会与其他具有自适应行为的智能体合作,并得出一组不可能性结果,表明即使智能体保证与某些固定策略合作,也没有学习算法可以可靠地学习如何与所有可能的自适应伙伴合作;随后讨论了捕捉自适应伙伴只会理性地适应我们行为的潜在替代假设。
Jun, 2022
本文主要介绍了一种基于多智能体强化学习 (MARL) 的环境 Stubborn,用于研究完全合作环境下代理之间的固执程度对社会动态的影响,并探究如何通过这种固执行为来提高环境中代理的智能行为选择。
Apr, 2023