BriefGPT.xyz
Mar, 2022
何时出发,何时探索:后探索对内在动机的益处
When to Go, and When to Explore: The Benefit of Post-Exploration in Intrinsic Motivation
HTML
PDF
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat
TL;DR
本文对Go-Explore论文中未解决的问题进行了系统研究,通过对一系列MiniGrid环境的实验发现,采用后探索策略能够显著提高强化学习的性能,并利用新的自适应方法进一步提高了效果,证明了自适应后探索是强化学习探索研究的一个有前途的方向。
Abstract
go-explore
achieved breakthrough performance on challenging
reinforcement learning
(RL) tasks with sparse rewards. The key insight of
go-explore<
→