该论文提出了一个新的 “无奖励强化学习” 框架,通过在探索阶段从 MDP 采集轨迹来找到探索策略,并使用黑盒近似规划器计算接近最优的策略。
Feb, 2020
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3/ε^2 个轨迹时无限找到 ε-optimal 策略,即便这些奖励函数是对抗性设计的。
Apr, 2023
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为 $ O (SAH)$,较以前的算法提高了 $S^5A^3$ 倍的效率。
Oct, 2021
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
研究如何在施加 “无回报探索” 的情况下,使用线性函数逼近在提高效率时落地实施策略,最后我们提出了一种新算法,只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹,在不同的奖励函数设定下,即可找到一个 ε- 最优策略,并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。
Oct, 2022
该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架,用于解决强化学习中的有效探索挑战,该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略,并给出了基于样本奖励值的有效算法 UCBZero。
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
Jun, 2023
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法 UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期,用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。
本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题,并提出了一种递归方法来限制离线场景下的 “总方差” 项,得到了近似无视野远的样本复杂度上限。
Mar, 2021