序贯社交困境中的多智体强化学习

Feb, 2017

序贯社交困境中的多智体强化学习

Multi-agent Reinforcement Learning in Sequential Social Dilemmas

Joel Z. Leibo, Vinicius Zambaldi, Marc Lanctot, Janusz Marecki, Thore Graepel

TL;DR本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Abstract

Matrix games like Prisoner's Dilemma have guided research on social dilemmas for decades. However, they necessarily treat the choice to cooperate or defect as an atomic action. In real-world social dilemmas these choices are temporally extended. Cooperativeness is a property that applies to policies, not elementary actions. We introduce →

sequential social dilemmas multi-agent reinforcement learning deep q-networks mixed incentive competition

发现论文，激发创造

深度多智能体强化学习在顺序囚徒困境合作中的应用

通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究，本文探讨互相合作演化趋势。实验表明，该策略可避免被攻击并与合作的对手实现合作。

Mar, 2018

学习复杂连续社交困境中的互惠原则

本研究提出了一种通用的在线强化学习算法，该算法能够向其合作伙伴表现出互惠行为，并在与自私代理一起学习时能够诱发更广泛的群体互惠行为，无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明，实施互惠行为的代理受到其合作伙伴行为的强烈影响。

Mar, 2019

公平厌恶提高了跨时社会困境中的合作

研究探讨了多智能体强化学习在社会困境问题上的局限性及由于人类存在的不平等厌恶行为对解决社会困境问题的重要作用。

Mar, 2018

具有不完全信息的社会困境中的后果主义条件合作

构建一个条件纯合作的智能体来解决社会困境问题，使用强化学习技术，仅仅基于结果而非意图，可以构建出好的策略，在真实社会困境中有效，并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。

Oct, 2017

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017

预测人类合作行为

本文介绍了第一个基于计算模型的人类行为在重复性囚徒困境博弈中的研究，该模型通过整合 168,386 个人类的决策数据，实现了成功的数据拟合和预测行为的目的，并在实验设计中展示了如何最好地促进人类合作。

Jan, 2016

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

通过选择性交互和长期经验增强多智能体强化学习中的合作

基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居，并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动，进而导致具有相似策略的智能体聚集，增加网络互惠性和加强群体合作。

May, 2024

应用强化学习和基于图的以牙还牙策略解决非对称和循环时序社交困境

本文提出了一种新的马尔可夫博弈模型，即循环顺序社交困境 (CSSD)，并通过深度强化学习和图形化 Tit-for-tat 策略成功解决了非对称合作问题。

Jun, 2022

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023