BriefGPT.xyz
Sep, 2020
基于模型的强化学习动态视野价值估计
Dynamic Horizon Value Estimation for Model-based Reinforcement Learning
HTML
PDF
Junjie Wang, Qichao Zhang, Dongbin Zhao, Mengchen Zhao, Jianye Hao
TL;DR
本文提出了一种名为DMVE的新方法,通过利用重建模块的世界模型来进行图像特征提取和价值估计,以确定模型知识的有效性,实现了自适应价值扩展的目的,并在基准视觉控制任务中表现出更高效和更准确的价值估计,优于同类方法。
Abstract
Existing model-based
value expansion
methods typically leverage a
world model
for value estimation with a fixed
rollout horizon
to assist
→