BriefGPT.xyz
Apr, 2024
在线强化学习中的复位的力量
The Power of Resets in Online Reinforcement Learning
HTML
PDF
Zakaria Mhammedi, Dylan J. Foster, Alexander Rakhlin
TL;DR
使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的MDPs的有效学习和可追溯性,同时利用RVFS算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。
Abstract
simulators
are a pervasive tool in
reinforcement learning
, but most existing algorithms cannot efficiently exploit simulator access -- particularly in high-dimensional domains that require general function approx
→