空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法

Jun, 2024

空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法

The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game

Lanyu Yang, Dongchun Jiang, Fuqiang Guo, Mingjian Fu

TL;DR合作行为在人类社会和自然界中普遍存在，本研究使用强化学习中的 SARSA 算法来研究进化博弈论，评估其对合作率的影响。

Abstract

cooperative behavior is prevalent in both human society and nature. Understanding the emergence and maintenance of cooperation among self-interested individuals remains a significant challenge in evolutionary biology and social sciences. →

cooperative behavior evolutionary game theory reinforcement learning sarsa algorithm cooperation rates

发现论文，激发创造

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

深度多智能体强化学习在顺序囚徒困境合作中的应用

通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究，本文探讨互相合作演化趋势。实验表明，该策略可避免被攻击并与合作的对手实现合作。

Mar, 2018

演化博弈中合作的崩溃

扩展进化博弈论通过允许玩家策略及其回报随着遗传变异的选择而进化，提供了一般框架来理解策略和回报在迭代博弈中的共同进化过程，揭示出利益和成本之间的权衡使得合作的瓦解是如此极端以至于合作的平均回报可能下降，即使相互合作的潜在回报仍在增加。

Feb, 2014

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

通过选择性交互和长期经验增强多智能体强化学习中的合作

基于多智能体强化学习的计算框架通过模拟囚徒困境游戏中的长期经验使智能体能够选择困境策略和互动邻居，并发现长期经验使智能体能够识别非合作邻居并偏好与合作邻居互动，进而导致具有相似策略的智能体聚集，增加网络互惠性和加强群体合作。

May, 2024

通过多智能体强化学习解构合作与排斥

通过多代理强化学习模拟，我们发现网络重连有助于互相合作，即使一个代理人总是主动提供合作。此外，我们还发现排斥本身不足以促使合作出现，反而是通过合作的学习而出现，并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。

Oct, 2023

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

诚实自博弈

提出了一种基于进化学习的框架，利用机制设计中的对等预测方法添加虚拟奖励，使多智体强化学习任务中的智能体能够达成合作，从而实现了无偏见状态表示的学习。在猎食者 - 被猎物，红绿灯和星际争霸等任务中，框架的表现达到了最先进水平。

Jun, 2021

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017

多智能体系统中的合作动力学：探索均场平衡下的博弈论场景

调查在博弈论情境中激发合作的策略，分析现有的合作策略对重复游戏中促进群体行为的有效性，并在具有指数增长代理人群体的情境中建立均衡解和奖励结构。通过模拟实现将理论概念与实际应用相结合。

Sep, 2023