通过一种强化学习的简单模型,研究发现使用声誉机制可以解决一些协作难题,但是声誉机制本身也会生成两个协调问题,为了缓解这个问题,可以采用固定代理人和内在奖励相结合等简单机制。
Feb, 2021
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本研究探讨了人工智能和博弈论的交叉领域,通过设计自动学习规则和设置奖惩机制来实现良好的社会合作,致力于构建一个合作型人工智能的研究目标。
Feb, 2022
该研究论文提出两种训练方法实现不同的期望,通过在简单环境中训练智能体在道德不确定性下行动,从而促进具有道德能力的代理人的进展,并突显强化学习对道德哲学的计算基础的潜力。
Jun, 2020
自利个体之间的紧急合作在自然界是普遍现象,但在人工智能代理之间的互动中仍然难以实现。我们引入了回报者(Reciprocators),一种本质上受到对手行为影响回报的强化学习代理,用于促进各种时间上延长的社会困境中的合作。
Jun, 2024
本篇论文研究多智体系统中的合作问题,发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习,支持多层次选择的创新模块化架构结构为此提供了解决方案。
Nov, 2018
研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用,提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法,并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。
Feb, 2020
通过多代理强化学习模拟,我们发现网络重连有助于互相合作,即使一个代理人总是主动提供合作。此外,我们还发现排斥本身不足以促使合作出现,反而是通过合作的学习而出现,并且存在的合作因为排斥而得到加强。这些发现对于实现合作与网络重连的必要条件和机制提供了深入的见解。
Oct, 2023
通过模拟多智能体社会进行微观经济学自动形成的基本现象,本文提供了一个以微观经济学为灵感的环境,其中智能体在一个复杂的空间世界中学习生产资源,与其他智能体交易和消费资源,并演示了产生的经济行为如何响应各种环境条件。
May, 2022
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019