constrained markov decision process | BriefGPT

关键词constrained markov decision process

搜索结果 - 25

具约束的有限时间 MDP 的高样本效率算法
本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率
PDF4 years ago
带安全约束的学习：有约束 MDP 的强化学习样本复杂度
研究未知的 CMDP 和两种 RL 算法的关系，在满足安全约束的情况下，探索样本复杂性。结果表明，相对于不受约束的情况，受约束的 RL 算法的样本复杂性增加的因子是约束数量的对数，该方法可以在实际系统中轻松使用。
PDF4 years ago
AAAI基于约束的深度强化学习的在线三维装箱
利用被约束的深度强化学习，将 3D 装箱问题建模成约束的马尔科夫决策过程，使用可行性预测器来有效地预测可行的放置动作的概率，并且在训练过程中使用它来调节演员输出的行动概率，以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转，本研究
PDF4 years ago
基于原始对偶策略优化的可证明高效安全探索
该论文使用 CMDP 公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POL
PDF4 years ago
安全强化学习中的加速原始 - 对偶策略优化
本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO，并在模拟机器人运动任务上实验，结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。
PDF6 years ago