具可证明效率的基于线性值迭代的奖励非相关导航
本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛,并通过理论分析和数字示例展示所提出的放宽条件的好处,同时维持任何时候的误差边界和平均损失边界,并且适用于贝叶斯和非贝叶斯方法。
Apr, 2016
开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设 MDP 具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
Jul, 2020
该研究针对强化学习中探索困境的问题,研究了无奖励的强化学习问题,提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,证明了该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度,是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
Oct, 2021
本文提出了第一个在基于线性动态和线性奖励时,具有多项式运行时间和样本复杂度的可证明的强化学习算法,该算法可以在不需要模拟器或其他假设的情况下实现,具有快速速度且与状态和动作数量无关。
Jul, 2019
研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。
Feb, 2020
研究如何在施加 “无回报探索” 的情况下,使用线性函数逼近在提高效率时落地实施策略,最后我们提出了一种新算法,只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹,在不同的奖励函数设定下,即可找到一个 ε- 最优策略,并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。
Oct, 2022
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法 UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期,用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。
Oct, 2021
我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法,该设置使用线性函数逼近来捕捉值函数,并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。
Jun, 2024
VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法,具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化,利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化,包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简,以及对先前工作中某种特征嵌入的优化过的模块化分析。
Jul, 2023