在线稀疏强化学习
通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
本文介绍了一种用于在线稀疏线性回归问题的算法,并在每次迭代时使用多项式时间限制来使遗憾较小。结果证明对于任何常数δ> 0,没有算法可以使遗憾在O(T ^(1-δ))以内,即使允许算法访问比最佳稀疏线性回归器更多的特征。
Mar, 2016
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性MDP模型,并可以更好地处理单个episode的损失。
May, 2019
本文研究了从固定行为策略生成的线下数据中学习无限时间折扣马尔可夫决策过程中的后悔问题,分析了$Q$-iteration(FQI)等常见方法的后悔收敛速度,并提供了较快的收敛率。其中,一种可行的方法是根据最优质量函数的任何估计,定义的策略的后悔以指数形式收敛于 $Q^*$ ,使其加速;同时,建立了这种噪声水平在线性和表形 MDP 中的应用。
Jan, 2021
本研究基于鲁棒Catoni平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性MDP设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
Jul, 2023