Apr, 2023

强化学习中最小化 - 最优化奖励无关探索

TL;DR本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略,即便这些奖励函数是对抗性设计的。