Jun, 2021

适当价值等效性

TL;DR本文研究模型为基础的强化学习中的价值等价原则及其在 MuZero 算法优化中的应用。