分工的出现通过分散社会制裁实现

Aug, 2022

分工的出现通过分散社会制裁实现

The emergence of division of labor through decentralized social sanctioning

Anil Yaman, Joel Z. Leibo, Giovanni Iacca, Sang Wan Lee

TL;DR人类生态成功的关键在于我们特有的能力，即灵活自组织成协作社会群体，而社会规范的引入可以使个体通过分担某些关键角色并获得奖励，从而形成对分工的共同协作和理解。

Abstract

human ecological success relies on our characteristic ability to flexibly self-organize into cooperative social groups, the most successful of which employ substantial specialization and →

human ecological success cooperative social groups division of labor self-interested individuals social norms

发现论文，激发创造

社会困境中的人类合作模型

本文研究社会困境中人们的合作行为，提出人类天生具有合作的倾向，并建立了第一个能够预测人类合作行为的模型，该模型考虑到人们能够形成联盟来预测社会困境的演化，并根据最乐观的预测来行动。实验结果表明，即使在没有外部控制的情况下，人们也能够在一次性的社会困境中合作。

Jul, 2013

通过新兴的社会价值观学习角色

本文提出了一种名为 Learning Roles with Emergent SVOs (RESVO) 的学习框架，结合社会科学中的社会价值取向（SVO）解决共同合作任务中的社会困境问题，通过对角色分配和奖励共享机制的学习，构建了一个基于 SVO 的角色嵌入空间，通过实验验证了该框架能够有效地解决不同复杂度的 ISD 问题。

Jan, 2023

在去中心化多智能体环境中，通过公共制裁获取社会规范的学习代理

基于社会规范的存在及其制约效应，本文提出构建一种社会学习动态系统，利用所有规范事件以培训代理人，并包含分类器和惩罚动机等模块，从而实现多代理人系统中的集体行动和实现对于社会利益有益的结果。

Jun, 2021

在跨时间社会困境任务中平衡探索和利用，提高合作

通过多智能体强化学习，将学习速率纳入协作策略以平衡探索和开发性，实现集体行为的协调。在决策任务中，简单的策略有助于提高相对集体的回报，并且异构环境下的强化学习代理人较同质环境更具协调性。

Oct, 2021

异质社会中的社会公共品困境

研究不同空间结构和社会公共物品在生物进化中如何影响互惠行为，发现异质性网络能够促进互惠行为的出现，但这也可能导致少数人受益，大多数人受益较少或负面影响。此外，研究还发现即使总成本超过总利益，社会产品的制作者也可能受到选择的青睐。

Sep, 2019

使用多智能体强化学习理解世界以解决社会困境

本论文采用多智能体强化学习与世界模型相结合的方法来研究社会困境中智能体的协作行为，并证明通过使用世界模型可以引导智能体实现复杂的协调行为。

May, 2023

一种共享资源占用的多智能体强化学习模型

这篇论文讨论了博弈论在共享资源议题上的应用，指出标准博弈论方法在处理复杂资源动态预测上的局限，并探索强化学习在该领域的应用，并且发现学习、排除和公平性在资源共享问题中是如何关联的。

Jul, 2017

强化学习代理的紧急主导层级

现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定：优势等级体系。通过人工智能代理，无需明确编程或内在奖励，我们证明了代理群体能够发明、学习、强化和传播优势等级体系，其结构与鸡、老鼠、鱼类和其他物种的研究相似。

Jan, 2024

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

利用深度强化学习促进共享资源问题上的可持续人类行为

使用深度强化学习设计资源分配机制以促进可持续的人类行为。

Apr, 2024