- 基于相似性的合作
介绍了一个更加现实的设置,其中智能体只能观察到一个表明它们相似程度的数字,证明这与完全透明的情况能够产生相同的合作结果,同时还证明了可以使用简单的机器学习方法学习合作。
- 使用深度强化学习启发式方法解决协作 Dec-POMDP 问题
SA2MA 算法通过在第一阶段解决单智能体问题并获得策略,在第二阶段使用单智能体策略解决多智能体问题,能够在复杂智能体合作域中具有明显优势。
- 通过人类规范化强化学习和规划掌握非宣传外交游戏
通过引入规划算法 DiL-piKL,将以人类学习策略为导向的策略规则化,弥补了仅靠自我对弈训练出的强化学习算法在协作游戏中的不足。通过 RL-DiL-piKL,训练出一名名为 Diplodocus 的与人类玩家进行博弈的 AI 代理,其在 - 一个集成的多智能体系统用于非线性分类
smapy 是一种基于集成学习和自适应多智能体系统的移动性预测实现方案,并提出了一种详细的方法,通过系统的合作学习方法的使用,证明可以在非线性分类环境下使用线性模型,并在交通模式检测数据集上实现了良好的表现。
- 关于在重复博弈中无法学习适应性合作策略的问题
本研究旨在了解在没有特定假设的情况下,我们是否能可靠地学会与其他具有自适应行为的智能体合作,并得出一组不可能性结果,表明即使智能体保证与某些固定策略合作,也没有学习算法可以可靠地学习如何与所有可能的自适应伙伴合作;随后讨论了捕捉自适应伙伴只 - 礼貌至上:维和机器人的感知
研究了在公共空间与机器人相遇时人们感到的直观信任是他们是否愿意与机器人合作的关键决定因素,并表明当互动机器人在保安角色下表现得非常有礼貌时,人们对其印象更好。
- AAAI多智能体强化学习中的递归推理图
采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法,能够帮助学习代理更好地合作或竞争,取得了多个多智能体粒子和机器人游戏中的最佳性能。
- 合作人工智能
本研究探讨了人工智能和博弈论的交叉领域,通过设计自动学习规则和设置奖惩机制来实现良好的社会合作,致力于构建一个合作型人工智能的研究目标。
- 基于图神经网络的多机器人协同感知
本文提出了一种通用的图神经网络(GNN),旨在通过协同感知能力,提高多机器人视觉感知任务的单个机器人推断感知准确性,并提高其对传感器故障和扰动的恢复能力。该方法已在多种实验场景中进行了验证。
- Hidden Agenda:具有不同学到均衡的社交推断游戏
这篇研究论文介绍了一种名为 Hidden Agenda 的社交推理游戏,用于研究多代理合作中的合作决策和学习智能体在未知背景下的团队合作。通过强化学习算法,这些代理可以学习各种行为,包括在没有语言交流的情况下的搭档和投票。
- ICLR多智能体强化学习中的合作学习
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式 MarL 框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优 - 规范分歧作为协作人工智能的挑战
研究多智能体协作中存在的利益冲突问题及其解决方案,提出采用规范自适应策略以增加协作。
- MM在跨时间社会困境任务中平衡探索和利用,提高合作
通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。
- ICML多智能体深度强化学习的协作探索
本文提出协作多智能体探索(CMAE)方法,通过归一化熵技术从多个状态空间中选择目标,实现智能体之间探索的协调性,取得了多项任务的良好表现。
- AAAI基于推理的确定性多智能体通信消息传递
本文研究了智能代理在协调、学习中的作用,提出了一种基于信息传递的优化方法,通过实验表明该方法可以增强现有的分散式训练方法,具有推广应用的潜力。
- 强化学习下的合作和声誉动态
通过一种强化学习的简单模型,研究发现使用声誉机制可以解决一些协作难题,但是声誉机制本身也会生成两个协调问题,为了缓解这个问题,可以采用固定代理人和内在奖励相结合等简单机制。
- 竞争中的紧急沟通
在现代机器学习中,标准强化学习算法在学习竞争代理之间的通信方面表现出仅有的负面结果。我们引入了一种改进的发送者 - 接收者游戏来研究部分竞争场景的光谱,并展示了通信确实可以在竞争环境中出现。我们通过实验证明了以下三个关键的研究成果。首先,我 - MM人工智能与协作
通过在 “人工智能和合作” 领域的研究,我们需要理解人工智能系统和人工智能系统与人类合作的方式,以及如何建立人工智能系统的信任,以实现人工智能与人类社会的合作,创造价值。
- 一种基于深度强化学习的多智能体协作控制框架:图形卷积 Q 网络
本文提出一种基于 GCN 和 DQN 的深度强化学习方法,名为 GCQ,用于信息融合和决策处理,以便协同感知获取的信息可以实现多辆 CAV 的安全和协作换道决策,从而达到个体意愿的满足,即使在高度动态和部分观察到的混合交通状况下,可以部署在 - 通过平衡搜索实现无新闻发布外交的人类水平表现
本文讲述了在 Diplomacy 中使用监督学习和一步向前搜索与后悔最小化的策略相结合的方式来构建代理。这个代理胜过以往的 Diplomacy 机器人,性能达到了人类顶尖水平,并且在合作和竞争中都表现出色。