May, 2018

A0C:连续动作空间中的 Alpha Zero

TL;DR该研究论文介绍了如何将 Alpha Zero 的算法模型用于连续动作域的强化学习问题,并给出了针对摆钟摆问题的初步实验结果,为在连续动作域下应用 Alpha Zero 算法模型提供了理论基础和有效性证明。