强化学习的无奖励探索
该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架,用于解决强化学习中的有效探索挑战,该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略,并给出了基于样本奖励值的有效算法 UCBZero。
Jun, 2020
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略,即便这些奖励函数是对抗性设计的。
Apr, 2023
该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
Oct, 2021
我们提出了一种新的自适应奖励免费探索方法,直接降低最大 MDP 估计误差的上限并证明了 RF-UCRL 算法具有良好的采样复杂性界限,可以看作是 Fiechter 算法的变体,该算法最初是针对另一种目标:最佳策略识别。
Jun, 2020
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
Jun, 2020
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
研究如何在施加 “无回报探索” 的情况下,使用线性函数逼近在提高效率时落地实施策略,最后我们提出了一种新算法,只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹,在不同的奖励函数设定下,即可找到一个 ε- 最优策略,并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。
Oct, 2022
本文研究了低秩 MDP 模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限,并提出了 RAFFLE 算法,通过无奖励探索可以在样本复杂度显著改善下找到 epsilon - 最优策略和 epsilon - 准确的系统识别。最后,提出了 RAFFLE 的规划算法,可学习到近乎准确的表示,是该环境下首个具有表示学习保证的算法。
Mar, 2023
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法 UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期,用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。
Oct, 2021