Apr, 2024

关于损失函数和误差累积在基于模型的强化学习中的注释

TL;DR模型驱动的强化学习在深度强化学习领域的理论理解上有一些困惑。本研究讨论的主要问题是如何解决模型驱动强化学习在错误叠加上的不良经验与其优越的理论性质之间的矛盾,以及经验上流行算法的局限性。通过构造具体反例,证明了“MuZero loss”在随机环境中的失败,以及在具备足够覆盖数据的确定性环境中具有指数样本复杂度。