value iteration algorithm | BriefGPT

关键词value iteration algorithm

搜索结果 - 7

关于连接型 MDP 中价值迭代的收敛性
该论文证明，具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛，适用于折扣和平均奖励标准。
PDF23 days ago
风险敏感马尔可夫决策过程与普遍效用函数下的学习
在实践中，决策者经常面临着不同的风险偏好和不确定性的情况，传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法，并设计了可实现的近似算法来求解该问题。
PDF7 months ago
有限状态不等式多臂赌博机和 Rollout 策略的可索引性
通过拉格朗日松弛和 Whittle 指数策略，本研究针对有限状态的多臂赌博机问题提出了一种解决方案，并使用值迭代算法验证了单臂赌博机的可指数性，讨论了在线掷骰策略和算法的计算复杂性，并通过数值实验证明，指数策略和掷骰策略优于短视策略。
PDFa year ago
间歇可观察的马尔科夫决策过程
本文研究了在不稳定状态信息下的 MDP，提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。
PDFa year ago
悲观策略在离线强化学习中能被证明是高效的吗？
本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。
PDF4 years ago
SPUDD：使用决策图的随机计划
本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。
PDF11 years ago
ICML强化学习中基于生成模型的样本复杂度研究
本文使用生成模型证明了在马尔可夫决策过程中，基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²))，其中 N 为状态 - 动作对的数量，γ 为折扣因子，ε 表示动作价值函数的 ε- 最优估计，δ 为概
PDF12 years ago