Apr, 2024

在线强化学习中的复位的力量

TL;DR使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的MDPs的有效学习和可追溯性,同时利用RVFS算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。