Sep, 2020

基于模型的强化学习动态视野价值估计

TL;DR本文提出了一种名为DMVE的新方法,通过利用重建模块的世界模型来进行图像特征提取和价值估计,以确定模型知识的有效性,实现了自适应价值扩展的目的,并在基准视觉控制任务中表现出更高效和更准确的价值估计,优于同类方法。