使用多智能体强化学习理解世界以解决社会困境
在社会困境中建立 AI 代理能够在个体私利和集体福利间取得平衡,研究人员修改强化学习方法来构建行为明了,好相处,可激怒且宽容的代理,通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。
Jul, 2017
该论文研究在多智能体环境下,独立强化学习代理人是否可以学习使用社会学习来提高性能,并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失,可以获得广义的社会学习策略,使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。
Oct, 2020
该文探讨了将道德选择嵌入智能系统的重要性,提出了使用强化学习设计奖励结构以探究道德问题,并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为,探讨了这些发现对于智能和混合人工智能社会的发展的影响。
Jan, 2023
探讨了人工智能与合作在社会困境中交叉的三个关键领域,包括多智能体合作、人工智能与人类合作以及运用人工智能增强人与人之间的合作,并提出了未来研究方向。
Feb, 2024
本文研究社会困境中人们的合作行为,提出人类天生具有合作的倾向,并建立了第一个能够预测人类合作行为的模型,该模型考虑到人们能够形成联盟来预测社会困境的演化,并根据最乐观的预测来行动。实验结果表明,即使在没有外部控制的情况下,人们也能够在一次性的社会困境中合作。
Jul, 2013
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
Oct, 2021
通过在多智能体环境中使用强化学习,研究了道德异质群体对个体智能体学习行为和整体行为的影响,发现某些类型的道德智能体能够引导自私的智能体更倾向于合作行为。
Mar, 2024
本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。
Feb, 2017