Apr, 2021

复杂动作空间中的学习与规划

TL;DR本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。