离线强化学习遗憾的快速速率
通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
本文提出了一种在线学习算法,即Adaptive Value-function Elimination(AVE),用于大规模状态空间下的Markov决策过程(MDPs),形式化了OLIVE中的淘汰步骤为上下文乐队问题,从而在学习过程中实现了最优价值函数的学习和非常低的累积遗憾,这是首次在具有一般价值函数逼近的随机MDPs中以Θ(√n)的累积遗憾结果呈现出增强学习。
Sep, 2019
在稀疏线性马尔可夫决策过程中,通过引入一种新的算法- Lasso fitted Q-iteration, 通过一个具有一定条件的数据策略,以几乎无维度代价实现对在线强化学习的降低,但线性后悔在常用政策情况下仍然无法避免。
Nov, 2020
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为$ O(SAH)$,较以前的算法提高了$S^5A^3$倍的效率。
Oct, 2021
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022
本文提出了一个模型自由的算法,通过方差降低和新颖的执行策略,解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题,实现了短燃烧期下的最优采样效率。
May, 2023
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
Jul, 2023
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知RLSVI算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。
Oct, 2023
近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合MDP。我们给出了流行的线性MDP设置的首个无周期边界,其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比,该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数,而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器,该方法获得了无周期边界,并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。
Mar, 2024