Jun, 2024

多智能体 MDPs 中的自适应对手策略检测:利用运行误差估计的实时策略切换识别

TL;DR在多智能体强化学习中,准确地感知对手策略对于合作和对抗环境都是必不可少的,本文提出了一种在线算法 OPS-DeMo,通过使用动态误差衰减来检测对手策略的变化,并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练,相较于 PPO,在动态情景下表现更出色,提供更强的鲁棒性和更准确的对手策略洞察。