非马尔科夫决策过程中 PAC 强化学习的马尔科夫抽象
本文介绍了非确定性策略的新概念,以允许用户在决策过程中具有更多的灵活性,同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略,并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在 Web 导航任务中表现优异的实验中,我们展示了人类的帮助。
Jan, 2014
本文介绍了一种通过层次化结构和抽象 - 细化循环来加速分析马尔科夫决策过程,针对重复部分具有局部影响的概率程序,将类似的子程序抽象成参数化模板,在需要时对其进行详细分析,从而缓解著名的状态空间爆炸问题。
Jun, 2022
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
研究了在具有非马尔可夫奖励的情况下,采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。
Dec, 2019
在强化学习中,为了解决政策简化和验证的挑战,作者们构建了 DeepMDP 框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为 MDP 的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的 RL 获得一个政策,并使用该政策有效地训练一个 VAE 模型,获得这个模型的双模拟保证的近似正确性的提炼版。
Dec, 2021
本文介绍了基于马尔可夫决策过程(MDP)中存在确定性可选动作集合的局限性,提出了一种新的基于随机动作集合的马尔可夫决策过程(SAS-MDP)模型,并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题,提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件,并通过真实用例启发的任务实验表明了该方法的实用性。
Jun, 2019