Mar, 2022

香草策略梯度法被忽视了吗?分析 Hanabi 的深度强化学习

TL;DR通过分析多智能体合作卡牌游戏 Hanabi 基准测试中的几种在线策略深度强化学习算法,我们的研究表明,Vanilla Policy Gradient 在多个随机种子下在简化环境中表现优于 PPO,这是一个反直觉的发现。我们分析了这种行为,并研究了 Hanabi 特定的指标,并假设了 PPO 的停滞原因。此外,我们证明了完美游戏(71 个回合)和任意游戏(89 个回合)的最长长度。