Apr, 2023
强化学习中最小化-最优化奖励无关探索
Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning
TL;DR本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集SAH^3/ε^2个样本轨迹就能对于所有感兴趣的奖励函数找到ε-optimal策略,而且算法还能在样本量超过S^2AH^3/ε^2个轨迹时无限找到ε-optimal 策略,即便这些奖励函数是对抗性设计的。