假设人类有偏见，学习与人类的零射合作

ICLRFeb, 2023

假设人类有偏见，学习与人类的零射合作

Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased

Chao Yu, Jiaxuan Gao, Weilin Liu, Botian Xu, Hao Tang...

TL;DR本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark，HSP 方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Abstract

There is a recent trend of applying multi-agent reinforcement learning (MARL) to train an agent that can cooperate with humans in a zero-shot fashion without using any human data. The typical workflow is to first repeatedly run self-play (SP) to build a policy pool and then train the f

multi-agent reinforcement learning cooperation hidden-utility self-play human biases overcooked benchmark

发现论文，激发创造

零样本协调的 “其他 - 玩耍

本文探讨了如何通过使用 other-play 算法增强 self-play 算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为 Fictitious Co-Play 的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用 FCP 方法产生显著更高的学习效果与人类喜好。

Oct, 2021

具势函数的非零和随机博弈中的学习

本文介绍了一种新一代的多智能体强化学习方法 SPot-AC，可用于处理非零和付结构和连续设置的随机潜在游戏中，证明了该方法能够使独立代理人在多项式时间内学习纳什均衡策略，在 Coordination Navigation 和大规模自私路由游戏等难以解决的任务方面表现出色，并在这些场景中优于 MADDPG 和 COMIX 等前沿方法。

Mar, 2021

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019

随机不确定社交偏好中的紧急互惠和团队形成

该研究通过引入随机不确定社交偏好（RUSP）的环境增强来训练多智能体以解决社交困境，证明了直接互惠、间接互惠与声誉的自然出现，包括团队形成，这些行为可带来更高的社会福利均衡。

Nov, 2020

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。

Feb, 2023

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

零样本可扩展协作的异构多智能体强化学习

我们提出了一个名为 SHPPO 的新型 MARL 框架，通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中，实现了可扩展性和异构性，并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团队绩效的洞察。

Apr, 2024

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017