Nov, 2022

对手建模中的双重深度 Q 学习

TL;DR本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略,并通过对手建模架构识别不同的对手策略模式,最终在两个环境下分析了我们的模型,研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。