Jun, 2023

MuZero学习的模型是什么?

TL;DR本文介绍了一种名为MuZero的深度模型强化学习算法,研究其深度学习模型的学习目标和用于策略改进的实用性,结果表明MuZero所学模型不能有效地推广到评估未知的策略,这限制了我们使用该模型进行计划进一步改善当前策略的程度。