ICMLJun, 2021

用于规划的矢量量化模型

TL;DR使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。