通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法,我们的技术在多代理合作游戏中生成多样化的约定,以适应人类的约定,并在与真实用户配对时超越人类水平的性能。
Oct, 2023
提出了一种基于规则和传统的分离表示学习框架,能够使 AI 代理快速适应新的任务和伙伴,从而实现零 - shot 协调。
Apr, 2021
研究了在协调博弈中,人工智能代理人如何通过多智能体强化学习和模仿学习来优化策略以满足现有社交约定。结果表明,使用少量模仿学习可以显著提高多智能体强化学习找到与现有社交约定相符的策略的概率。
Jun, 2018
模拟框架中,研究通过反转模型来对齐 AI 助手与用户的偏好,并发现 AI 助手在经济最终决策游戏中能够准确对齐行为,但其学习的策略在未包含的情况下缺乏稳健性和普适性,并且发现语言使用与未知策略之间存在不一致时,学习策略的速度会减慢。
本文提出了两种搜索技术,分别是单智能体搜索和多智能体共同知识搜索,在合作部分可观察游戏中应用,以提升合作智能体的性能。在 Hanabi 基准挑战问题中,两种技术均能大幅提高每个测试智能体的性能,并对使用 RL 训练的策略产生了新的最先进得分 24.61/25。
Dec, 2019
本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题,以实现智能体对人类和其他智能体的有效交互,并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。
Mar, 2022
该研究提出了一种名为 off-belief learning(OBL)的方法,通过多层次认知推理来解决基于自习的 Dec-POMDPs(分布式部分可观测马尔科夫决策过程)在测试阶段无法适应人类行为模式的问题,并在 Hanabi 基准测试中展现了强大的表现。
Mar, 2021
研究多智能体协作中存在的利益冲突问题及其解决方案,提出采用规范自适应策略以增加协作。
Nov, 2021
通过评估神经人工智能代理在协作性参照游戏中对伙伴行为的适应性,本文将语言准确性和协调任务作为强化学习问题进行建模,研究了共同强化学习算法(PPO)能否训练出在不同启发式跟随者行为(在自信程度和自治程度维度上变化)下表现良好的神经引导者代理。实验结果显示,考虑到通信努力这一新因素能够导致更简洁的交流策略(在某些步骤中保持静默),同时引导者的策略确实能够根据伙伴的自信程度和自治程度进行调整。
Feb, 2024
本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法,以提高模型的解释性和稳定性,提高性能和样本效率。
Feb, 2023