公平厌恶提高了跨时社会困境中的合作

Mar, 2018

公平厌恶提高了跨时社会困境中的合作

Inequity aversion improves cooperation in intertemporal social dilemmas

Edward Hughes, Joel Z. Leibo, Matthew G. Phillips, Karl Tuyls, Edgar A. Duéñez-Guzmán...

TL;DR研究探讨了多智能体强化学习在社会困境问题上的局限性及由于人类存在的不平等厌恶行为对解决社会困境问题的重要作用。

Abstract

Groups of humans are often able to find ways to cooperate with one another in complex, temporally extended social dilemmas. Models based on behavioral economics are only able to explain this phenomenon for unrealistic stateless matrix games. Recently, multi-agent reinforcement learning

cooperation social dilemma multi-agent reinforcement learning inequity aversion policy learnability

发现论文，激发创造

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017

社会困境中的人类合作模型

本文研究社会困境中人们的合作行为，提出人类天生具有合作的倾向，并建立了第一个能够预测人类合作行为的模型，该模型考虑到人们能够形成联盟来预测社会困境的演化，并根据最乐观的预测来行动。实验结果表明，即使在没有外部控制的情况下，人们也能够在一次性的社会困境中合作。

Jul, 2013

学习复杂连续社交困境中的互惠原则

本研究提出了一种通用的在线强化学习算法，该算法能够向其合作伙伴表现出互惠行为，并在与自私代理一起学习时能够诱发更广泛的群体互惠行为，无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明，实施互惠行为的代理受到其合作伙伴行为的强烈影响。

Mar, 2019

使用多智能体强化学习理解世界以解决社会困境

本论文采用多智能体强化学习与世界模型相结合的方法来研究社会困境中智能体的协作行为，并证明通过使用世界模型可以引导智能体实现复杂的协调行为。

May, 2023

具有不完全信息的社会困境中的后果主义条件合作

构建一个条件纯合作的智能体来解决社会困境问题，使用强化学习技术，仅仅基于结果而非意图，可以构建出好的策略，在真实社会困境中有效，并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。

Oct, 2017

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

一种共享资源占用的多智能体强化学习模型

这篇论文讨论了博弈论在共享资源议题上的应用，指出标准博弈论方法在处理复杂资源动态预测上的局限，并探索强化学习在该领域的应用，并且发现学习、排除和公平性在资源共享问题中是如何关联的。

Jul, 2017

不确定激励一致下的紧急合作

不确定性降低了代理人在合作行为中的能力，但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。

Jan, 2024