强化学习中发现和消除外生状态变量和奖励
本文提出了一种将 MDP 分解为外源 Markov 奖励过程和内源 Markov 决策过程的方法,以优化内源的奖励,以解决外源状态变量和奖励对 MDP 强化学习造成的干扰,并给出了在线发现状态空间中混合外源和内源状态的算法,改进了强化学习的效率。
Mar, 2023
该论文研究了如何在处理高维观测数据时,通过引入先前的表示学习方法从原始观测数据中提取内生潜在状态信息,并在存在外生噪声时进行最优规划。提出了 EX-BMDP 模型,开展了潜在状态发现研究,并介绍了基于预测路径消除算法(PPE)的算法,对于近似确定性的内生状态动态具有很好的采样和计算效率。实验表明该方法具有良好的效果。
Oct, 2021
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Aug, 2023
研究了输入驱动环境中的强化学习问题,提出了一种无偏差、输入依赖的基线模型及元学习方法,实验结果表明相较于状态依赖的基线模型,输入依赖的模型可以提高训练稳定性并得到更好的训练结果。
Jul, 2018
本文介绍了一种符号规划算法,该算法是面向以对象为中心、独立的外部事件和捕捉库存控制等问题的服务域的,该算法具有明确的关于外部事件的关系 MDP 的性能保证,在某些技术条件下,我们的规划算法提供了关于最优值函数的单调下界。为了支持这种算法,我们使用广义一阶决策图作为知识表示,提出了新颖的评估和约简技术。我们的规划算法使用一组焦点状态,这组状态作为一个训练集,简化和近似符号解,并且可以被视为执行规划的学习。一项初步的实验评估证明了这种方法的有效性。
Jun, 2013
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
研究了在具有非马尔可夫奖励的情况下,采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。
Dec, 2019