分工的出现通过分散社会制裁实现
本文研究社会困境中人们的合作行为,提出人类天生具有合作的倾向,并建立了第一个能够预测人类合作行为的模型,该模型考虑到人们能够形成联盟来预测社会困境的演化,并根据最乐观的预测来行动。实验结果表明,即使在没有外部控制的情况下,人们也能够在一次性的社会困境中合作。
Jul, 2013
本文提出了一种名为 Learning Roles with Emergent SVOs (RESVO) 的学习框架,结合社会科学中的社会价值取向(SVO)解决共同合作任务中的社会困境问题,通过对角色分配和奖励共享机制的学习,构建了一个基于 SVO 的角色嵌入空间,通过实验验证了该框架能够有效地解决不同复杂度的 ISD 问题。
Jan, 2023
基于社会规范的存在及其制约效应,本文提出构建一种社会学习动态系统,利用所有规范事件以培训代理人,并包含分类器和惩罚动机等模块,从而实现多代理人系统中的集体行动和实现对于社会利益有益的结果。
Jun, 2021
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
Oct, 2021
研究不同空间结构和社会公共物品在生物进化中如何影响互惠行为,发现异质性网络能够促进互惠行为的出现,但这也可能导致少数人受益,大多数人受益较少或负面影响。此外,研究还发现即使总成本超过总利益,社会产品的制作者也可能受到选择的青睐。
Sep, 2019
这篇论文讨论了博弈论在共享资源议题上的应用,指出标准博弈论方法在处理复杂资源动态预测上的局限,并探索强化学习在该领域的应用,并且发现学习、排除和公平性在资源共享问题中是如何关联的。
Jul, 2017
现代强化学习算法在各种任务中能够超越人类表现。本文研究了多智能体强化学习环境中的一个基本社会约定:优势等级体系。通过人工智能代理,无需明确编程或内在奖励,我们证明了代理群体能够发明、学习、强化和传播优势等级体系,其结构与鸡、老鼠、鱼类和其他物种的研究相似。
Jan, 2024