在线线性$ q^π $可实现MDPs中的RL与线性MDPs一样简单,只要你学会忽略什么
本文介绍了在具有线性函数表示的情况下,在折扣无限时间MDPs中分别对策略和目标策略的价值进行估计时,即使存在实现性并观察到精确奖励和转移函数以及为问题类提供最佳先验数据分布,也派生出指数的信息论下限,并引入了一个新的“oracle+ batch algorithm”框架来证明适用于每个分布的底限。工作显示了批处理和在线强化学习之间的指数分离。
Dec, 2020
本文考虑了使用生成模型进行有限轮次的MDP本地规划,并提出了一种名为TensorPlan算法的方法,在最优价值函数符合线性可实现性的情况下,能够以poly((dH/δ)的复杂度找到相对于任何线性可实现性且存在界限参数的确定性策略的δ最优策略;此外,本文还将上限拓展到了近可实现性情况和无限时域折扣设置。
Feb, 2021
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样$\tilde{\mathcal{O}}(H^5d^2\epsilon^{-2})$周期,用于构建奖励函数并实现任意奖励下的$\epsilon$-最优策略。
Oct, 2021
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
Jun, 2023
线性马尔科夫决策过程(MDP)中的特征选择和零稀疏线性MDP,以及通过凸规划有效计算的模拟器、低深度决策树上的区块MDP的学习算法。
Sep, 2023
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了CMDP在线性设置中的多项式样本复杂度。
Jun, 2024
本研究解决了混合强化学习(RL)在保证无单一策略集中的假设下,是否可以改善纯离线和纯在线RL所建立的下界这一问题。通过研发高效算法,发现这些算法在提高误差或后悔界限方面实现了显著进展,为线性马尔可夫决策过程中的混合RL提供了最严格的理论保证。
Aug, 2024
本研究解决了在大规模或无限状态和动作空间中设计高效样本和计算合理的强化学习算法的难题。我们提出了一种新算法,能够在给定特征映射下高效寻找近似最优策略,并在问题参数上呈多项式级别使用样本和成本敏感分类oracle。这一算法显著提升了现有方法的效能,尤其在处理无限状态和动作环境时,具有重要应用潜力。
Sep, 2024
本研究解决了连续状态和动作空间环境中无悔强化学习的重大挑战,指出现有方法存在的局限性。我们提出了“局部线性化马尔可夫决策过程”这一新概念,并引入了无悔算法Cinderella,证明其在已知可学习和可行的MDP家族中具备先进的后悔界限。此工作推动了无悔强化学习在连续MDP中的可行性和学习能力。
Oct, 2024