有非马尔可夫奖励的决策论规划
本篇论文介绍和综合了基于马尔可夫决策过程相关的方法,显示它们为建立AI中研究的许多类计划问题提供了一个统一的框架,并概述了用于易于构建策略或计划的计算工具的几种类型的表示和算法。
May, 2011
本论文将奖励函数规范的问题视为偏好引出问题,并旨在在仍允许产生最优或接近最优策略的情况下,最小化必须规定奖励函数的精度。通过使用极小极大后悔准则来计算只有部分奖励信息的MDP的健壮策略,然后演示如何使用边界查询高效引出奖励信息,以减少后悔,使用后悔减少作为选择适当查询的手段。实证结果表明,基于悔恨的奖励引出为生产接近最优策略提供了一种有效的方式,而不需要精确定义整个奖励函数。
May, 2012
本文介绍了非确定性策略的新概念,以允许用户在决策过程中具有更多的灵活性,同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略,并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在Web导航任务中表现优异的实验中,我们展示了人类的帮助。
Jan, 2014
本研究旨在解决在非恒定随机环境下的鲁棒零-shot规划问题,通过引入定义了特定类别的马尔可夫决策过程来进行计算建模,并提出了一种零-shot基于模型的风险敏感树搜索算法。
Apr, 2019
研究了在具有非马尔可夫奖励的情况下,采用Q-learning和R-max算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。
Dec, 2019
本研究提出了一种基于平均报酬MDPs的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时,我们的所有算法都基于此。
Jun, 2020
我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力,通过将马尔可夫决策过程(MDPs)中的奖励函数视为代理行为的特征化手段,研究了是否存在一种标量或多维度马尔可夫奖励函数,使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出了这样的奖励函数存在的必要和充分条件,同时也证明了对于任意非退化的确定性策略集合,都存在一个多维度的马尔可夫奖励函数来描述它。
Jul, 2023
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的'成本',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Aug, 2023
马尔科夫决策过程(MDPs)为不确定性下的顺序决策制定了标准框架,但是MDPs中的转移概率通常是从数据中估计的,并且MDPs不考虑数据的不确定性。鲁棒马尔科夫决策过程(RMDPs)通过为每个转移分配不确定性集合而不是单个概率值来解决了MDPs的这个缺点。解决RMDPs的目标是找到一种策略,使得在不确定性集合上最大化最坏情况的性能。本文考虑多面体RMDPs,在其中所有的不确定性集合都是多面体,并研究解决长期平均回报的多面体RMDPs的问题。我们关注计算复杂性方面和高效算法。我们提出了这个问题的一个新视角,并且证明它可以简化为解决具有有限状态和动作空间的长期平均回报的轮流随机游戏。这个简化使我们能够得出几个重要的结论,这些结论以前是未知的。首先,我们为解决长期平均回报的多面体RMDPs推导出新的计算复杂性界限,首次证明它们的阈值决策问题属于NP coNP,并且它们具有具有亚指数期望运行时间的随机算法。其次,我们提出了鲁棒多面体策略迭代(RPPI),一种用于解决长期平均回报的多面体RMDPs的新型策略迭代算法。我们的实验评估表明,相比基于值迭代的现有方法,RPPI在解决长期平均回报的多面体RMDPs方面更加高效。
Dec, 2023
本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准MDPs,我们可以改善最终性能和训练时间。
May, 2024