BriefGPT.xyz
Oct, 2022
利用学习模型实现高效的离线策略优化
Efficient Offline Policy Optimization with a Learned Model
HTML
PDF
Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng Yan, Zhongwen Xu
TL;DR
通过研究,本文提出使用一种规范化的一步前瞻方法来解决MuZero Unplugged在离线强化学习设置下可能存在的一些问题,并在BSuite环境中进行了广泛的实证研究,得到了稳定的结果,并在大规模的Atari基准测试中取得了优异的表现。
Abstract
muzero unplugged
presents a promising approach for
offline policy learning
from logged data. It conducts
monte-carlo tree search
(MCTS) wi
→