使用多智能体强化学习理解世界以解决社会困境

ICLRMay, 2023

使用多智能体强化学习理解世界以解决社会困境

Understanding the World to Solve Social Dilemmas Using Multi-Agent Reinforcement Learning

Manuel Rios, Nicanor Quijano, Luis Felipe Giraldo

TL;DR本论文采用多智能体强化学习与世界模型相结合的方法来研究社会困境中智能体的协作行为，并证明通过使用世界模型可以引导智能体实现复杂的协调行为。

Abstract

social dilemmas are situations where groups of individuals can benefit from mutual cooperation but conflicting interests impede them from doing so. This type of situations resembles many of humanity's most critical challenges, and discovering mechanisms that facilitate the

social dilemmas cooperative behaviors multi-agent reinforcement learning world models emergence

发现论文，激发创造

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

社会困境中的合作：多主体，人 - 主体与更多：一项综述调查

探讨了人工智能与合作在社会困境中交叉的三个关键领域，包括多智能体合作、人工智能与人类合作以及运用人工智能增强人与人之间的合作，并提出了未来研究方向。

Feb, 2024

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

社会困境中的人类合作模型

本文研究社会困境中人们的合作行为，提出人类天生具有合作的倾向，并建立了第一个能够预测人类合作行为的模型，该模型考虑到人们能够形成联盟来预测社会困境的演化，并根据最乐观的预测来行动。实验结果表明，即使在没有外部控制的情况下，人们也能够在一次性的社会困境中合作。

Jul, 2013

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

学习代理人异质群体中的道德行为动力学

通过在多智能体环境中使用强化学习，研究了道德异质群体对个体智能体学习行为和整体行为的影响，发现某些类型的道德智能体能够引导自私的智能体更倾向于合作行为。

Mar, 2024

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

利用深度强化学习促进共享资源问题上的可持续人类行为

使用深度强化学习设计资源分配机制以促进可持续的人类行为。

Apr, 2024