对手学习建模的学习
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文提出基于模型的对手建模(MBOM)方法,通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手,在固定策略、初学者和推理者等多重对手场景中,MBOM 的适应性比现有方法更优。
Aug, 2021
本文介绍了一种基于神经网络和任务多项式结构的对手建模方法,该方法能够应用于多智能体环境下的策略自适应,通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。
Sep, 2016
本文研究了多智能体强化学习中的基于模型的方法,提出了自适应对手推演策略优化(AORPO)的分散化的基于模型的 MARL 方法,旨在全过程中降低样本复杂度,并在竞争和合作任务中开展实证研究,表明 AORPO 能够实现比对比 MARL 方法更好的样本效率和相似的渐近性能。
May, 2021
本研究使用变分自编码器对多智能体系统中特定行为进行对手建模,以及提出了一种使用局部信息来识别对手模型的方法,结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。
Jan, 2020
该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛,它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念,并建议作为人工智能通用智能方向的一个里程碑挑战。
Jan, 2019
本研究在多智能体环境下,重新定义二元随机变量 $o$ 并将多智能体强化学习形式化为概率推理。我们提出了一种名为 ROMMEO 的正则对手模型最大熵目标的变分下界,并从中展示了一种对手建模的新方法,理论和实证地证明其在协作游戏中可以提高训练智能体的性能。我们引入了一种名为 ROMMEO-Q 的表格 Q 迭代方法,并将其扩展为复杂环境下的 ROMMEO-AC 的近似版本,我们在挑战性的迭代矩阵游戏和微分游戏上评估了这两种算法,证明它们可以胜过强的多智能体强化学习基线。
May, 2019
在多智能体强化学习中,准确地感知对手策略对于合作和对抗环境都是必不可少的,本文提出了一种在线算法 OPS-DeMo,通过使用动态误差衰减来检测对手策略的变化,并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练,相较于 PPO,在动态情景下表现更出色,提供更强的鲁棒性和更准确的对手策略洞察。
Jun, 2024