零样本协调的“其他-玩耍
介绍了零射击协调(ZSC)的问题,定义了一个标签自由协调游戏(LFC),发现了其他玩法不是LFC问题的最佳解,引入了其他玩法的补充算法以解决此问题,同时提出了ZSC的另一种实现方式。
Jun, 2021
本文提出了一种通过最大熵种群训练(MEP)来训练RL系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏PPO(SP)等方法进行比较,我们证明了MEP方法的有效性。
Dec, 2021
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
Jan, 2022
本文提出了使用贝叶斯推断和Gibbs采样等技术来解决多智能体强化学习协作中的协调难题,以实现智能体对人类和其他智能体的有效交互,并在Hanabi这个复杂的纸牌游戏中表现出了强大的能力。
Mar, 2022
本研究针对多智能体强化学习在与人合作零-shot学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估Overcooked benchmark,HSP方法成功获得了更高的协同收益,并被受试者评选为最有帮助的策略。
Feb, 2023
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏Hanabi的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对Hanabi代理的适应性具有重要影响。
Aug, 2023
通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法,我们的技术在多代理合作游戏中生成多样化的约定,以适应人类的约定,并在与真实用户配对时超越人类水平的性能。
Oct, 2023
本研究旨在填补自我对弈在强化学习中的应用与理论之间的空缺,提出了一个统一框架并对现有自我对弈算法进行了分类。通过展示自我对弈在不同场景中的作用,本文揭示了其实际应用的重要性,并指出开放的挑战和未来的研究方向。
Aug, 2024