本文提出了一种结合自动机学习和经典强化学习的算法,用于学习非马尔可夫决策流程中的马尔科夫抽象,并且证明该算法具有 PAC 保证。
Apr, 2022
引入一种新型的 omega-regular 决策过程 (ODPs),通过将其规约为有限 MDPs 上的字典序优化和学习,实现了对 ODPs 的优化和学习。
Dec, 2023
本文探讨了如何使用富观测和函数逼近进行强化学习的系统性探索,并介绍了一种新的模型,即上下文决策过程,它统一和概括了大多数之前的设置,并提出了一种新的强化学习算法,我们的算法用 Bellman rank 衡量复杂度,使用乐观探索最小化 Bellman 误差,保证在所有相关参数的时间多项式的情况下学会近似最优行为,为强化学习提供了新的见解。
Oct, 2016
本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和 Legendre-Fenchel 变换,可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析,并与 Mirror Descent 进行了连接。
Jan, 2019
引入了一个基于模型的近似正确(PAC)学习算法,用于解决马尔可夫决策过程中的 omega 正则目标。不同于之前的方法,该算法从系统的采样轨迹中学习,不需要对系统拓扑的先验知识。
Oct, 2023
本研究提出一种新的强化学习模型,将上下文逐步演化到顺序决策制定,通过分析最小二乘值淘汰算法表明,在某些特定情形,强化学习方法的范数较优行为可以在多项式时间内学习。
Feb, 2016
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Aug, 2023
本文研究了 PAC 强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法 OLIVE 不能在 Oracle 模型中实现,通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。
Mar, 2018
本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。
May, 2022
探究离散时间 Markov 决策过程的自动翻译问题,提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况,并使用了最新的基于转义的自动翻译技术。
Mar, 2023