Jun, 2020

使用类AlphaZero排名奖励强化学习解决Morpion Solitaire问题

TL;DR本文提出了一种基于深度自我学习强化学习方法的搜索算法,运用排名奖励的方法在较少的计算资源下找到了靠近人类最佳成绩的 Morpion Solitaire 解法,同时提出了进一步改进的方向。