深度多智能体强化学习在顺序囚徒困境合作中的应用

Mar, 2018

深度多智能体强化学习在顺序囚徒困境合作中的应用

Towards Cooperation in Sequential Prisoner's Dilemmas: a Deep Multiagent Reinforcement Learning Approach

Weixun Wang, Jianye Hao, Yixi Wang, Matthew Taylor

TL;DR通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究，本文探讨互相合作演化趋势。实验表明，该策略可避免被攻击并与合作的对手实现合作。

Abstract

The iterated prisoner's dilemma has guided research on social dilemmas for decades. However, it distinguishes between only two atomic actions: cooperate and defect. In real-world prisoner's dilemmas, these choices are temporally extended and different strategies may correspond to seque

iterated prisoner's dilemma sequential prisoner's dilemma multiagent reinforcement learning cooperation opponent

发现论文，激发创造

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

在线学习的重复囚徒困境模拟人类行为

本文研究了在线学习算法在囚徒困境游戏中的行为，探究了多臂老虎机、上下文老虎机和强化学习等算法在这种情景下的能力及其对人类行为的拟合度，并从多智能体竞争和策略动态方面得出了许多结论。

Jun, 2020

预测人类合作行为

本文介绍了第一个基于计算模型的人类行为在重复性囚徒困境博弈中的研究，该模型通过整合 168,386 个人类的决策数据，实现了成功的数据拟合和预测行为的目的，并在实验设计中展示了如何最好地促进人类合作。

Jan, 2016

空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法

合作行为在人类社会和自然界中普遍存在，本研究使用强化学习中的 SARSA 算法来研究进化博弈论，评估其对合作率的影响。

Jun, 2024

通过选择性交互和长期经验增强多智能体强化学习中的合作

基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居，并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动，进而导致具有相似策略的智能体聚集，增加网络互惠性和加强群体合作。

May, 2024

应用强化学习和基于图的以牙还牙策略解决非对称和循环时序社交困境

本文提出了一种新的马尔可夫博弈模型，即循环顺序社交困境 (CSSD)，并通过深度强化学习和图形化 Tit-for-tat 策略成功解决了非对称合作问题。

Jun, 2022

学习复杂连续社交困境中的互惠原则

本研究提出了一种通用的在线强化学习算法，该算法能够向其合作伙伴表现出互惠行为，并在与自私代理一起学习时能够诱发更广泛的群体互惠行为，无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明，实施互惠行为的代理受到其合作伙伴行为的强烈影响。

Mar, 2019

演化博弈中合作的崩溃

扩展进化博弈论通过允许玩家策略及其回报随着遗传变异的选择而进化，提供了一般框架来理解策略和回报在迭代博弈中的共同进化过程，揭示出利益和成本之间的权衡使得合作的瓦解是如此极端以至于合作的平均回报可能下降，即使相互合作的潜在回报仍在增加。

Feb, 2014

加强学习生成囚徒困境重复博弈的支配策略

该研究使用强化学习技术（进化和粒子群算法）创建了几种强大的策略，并针对包括许多知名和经典策略在内的超过 170 个对手进行了训练，从而赢得了标准锦标赛以及嘈杂环境下的比赛。

Jul, 2017

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017