May, 2018
A0C:连续动作空间中的 Alpha Zero
A0C: Alpha Zero in Continuous Action Space
Thomas M. Moerland, Joost Broekens, Aske Plaat, Catholijn M. Jonker
TL;DR该研究论文介绍了如何将 Alpha Zero 的算法模型用于连续动作域的强化学习问题,并给出了针对摆钟摆问题的初步实验结果,为在连续动作域下应用 Alpha Zero 算法模型提供了理论基础和有效性证明。