本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE),尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题,实现了很好的性能并达到了理论界限。
Sep, 2017
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的 Minimax 下界相匹配,包括特征映射的选择和问题维数。
May, 2023
本研究考虑采用生成模型(模拟器)以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。
Dec, 2022
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
研究强化学习的样本效率,证明了两种算法的最小最优性,同时实现了目标准确率的最小最优样本复杂度,这是目前首次提供涵盖整个样本范围的最小最优保证。
May, 2020
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。
Jun, 2024
我们回顾平均奖励马尔可夫决策过程(MDP)中 ε- 最优策略的识别,并提出了一种新算法,在小 ε 范围内其样本复杂度为 SAD/ε^2;此外,我们还提出了一种在线算法,其样本复杂度为 SAD^2/ε^2,并且提出了一种有前景的基于数据相关的停止准则的新方法以进一步减小此样本复杂度界限。
May, 2024
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
Jun, 2023
该研究提出一种基于特征维度的参数 Q 学习算法,通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率,并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略,适用于大规模的马尔可夫决策过程。
Feb, 2019
我们研究了学习潜在马尔可夫决策过程(LMDPs)的计算和统计学方面。本文的主要目标是建立一个几乎精确的统计阈值,以实现有效学习所需的时间长度。在计算方面,我们证明,在最优策略下具有较弱的分离性假设时,存在一个几乎多项式的算法,时间复杂度与统计阈值成比例。我们还基于指数时间假设,展示了一个近似的时间复杂度下界。