学习团队对齐：基于多智体团队的自适应 Credo 框架

Apr, 2023

学习团队对齐：基于多智体团队的自适应 Credo 框架

Learning to Learn Group Alignment: A Self-Tuning Credo Framework with Multiagent Teams

David Radke, Kyle Tilbury

TL;DR在多智能体团队中使用混合激励机制具有优势，作者们提出了一个框架，在此框架下，学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想，可以学习支持行为策略发展的奖励函数的配置。初步结果表明，通过自我调整各自的团队配置参数，智能体可以实现更好的全局结果。

Abstract

Mixed incentives among a population with multiagent teams has been shown to have advantages over a fully cooperative system; however, discovering the best mixture of →

multiagent teams incentives learning agents reward function meta-learning

发现论文，激发创造

多智能体学习中信条的重要性

提出了一个团队多目标优化的模型 ——credo，该模型规范了团队中代理人的行为优化，通过强化学习代理人在具有挑战性的社交困境中进行评估，结果表明，即使团队成员的兴趣不完全一致，也可以实现高度的平等和比兴趣一致时更显著的人均回报增长的两种方案。

Apr, 2022

多智能体协作中个体和整体目标的对齐

通过建模为可微分博弈，并引入一种名为利他梯度调整（AgA）的新型优化方法，本研究成功地实现了个体和集体目标之间的对齐，加速了收敛并促进了利他和公平的协作。

Feb, 2024

ELIGN：基于多智能体内在奖励的期望对齐

该研究探讨在分散型训练或稀疏奖励的情况下，提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调，这比基于好奇心的探索方法更加可行。

Oct, 2022

多智体元梯度强化学习中的自适应激励设计

本文研究了在应用人工智能并应用于共享环境中，设计机构机制以体现社会福利的重要性。我们提出了一种基于元梯度方法的自适应激励设计算法，该算法通过在线交叉验证原则显式考虑其对代理学习的影响，并通过它们对未来社会福利的影响进行优化系统目标

Dec, 2021

学习在团队规模间转移角色分配

我们提出了一个基于角色的多智能体强化学习框架，该框架使用角色分配网络将学习代理分配到团队中，以适应不同的团队大小，并通过 StarCraft II 模拟来展示该方法的有效性。

Apr, 2022

多智能体团队中可迁移合作行为的学习

提出使用共享的代理 - 实体图来建模多智能体相互作用，并利用基于图的强化学习训练代理实现协作行为，实现了对多种任务的有效解决，并展示了其泛化能力。

Jun, 2019

合作多智体强化学习中的教学学习

本文提出了一种新的算法，名为 Learning to Coordinate and Teach Reinforcement（LeCTR），通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议，从而改善整个团队性能和学习效果。实证比较表明，我们的教学代理不仅学习速度更快，而且在现有方法失败的任务中也学会了协作。

May, 2018

CM3：合作多目标多阶段多智能体强化学习

本文提出了一种名为 CM3 的结构，包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度，具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。

Sep, 2018

多智能体强化学习中的协作课程学习

在多智能体环境中，通过使用降低技能水平的协作队友为学习代理制定学习课程，能够同时实现任务完成与整体团队奖励最优。

Dec, 2023

未知环境下的协同人工智能团队合作通过主动目标推理

人工智能与未知代理的协作中，使用了基于内核密度贝叶斯逆学习方法和预训练的、目标条件下的策略以实现零 - shot 策略适应性。该框架在多样的未知代理环境中得到验证，结果表明在合作场景中，其卓越的团队表现推动了人工智能与未知代理的发展。

Mar, 2024