Oct, 2023

独立学习个性化竞争行为的对比强化学习优化

TL;DR在这篇论文中,我们提出了一个由三个神经层组成的新颖模型,用于学习竞争性游戏的表示、对特定对手策略的映射以及如何打乱对手。通过在线训练和对比优化的组合损失,我们的模型在 Pokemon 对战和四人竞技帽子师傅卡牌游戏中取得了较好的性能,尤其是在多次对战同一对手时。我们还对模型的影响进行了讨论,尤其是在对这两种情况下的具体策略学习方面的表现。