- 自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。
- 在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对 CMDP 问题的样本复杂度提出了改进,实现了优化的问题相关保证。
- 各州受限制的政策优化
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效 - 最后迭代一致收敛的政策梯度原始 - 对偶算法用于约束 MDPs
本文介绍了利用 Lagrangian 方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐 - C-MCTS:蒙特卡洛树搜索进行安全规划
提出了一种基于 Constrained MCTS 框架的采样式规划算法,使用安全性评论家评估代理的代价,能更有效地满足代价约束条件,且在模型不匹配时更少受到代价违规的影响。
- 从未知奖励的演示中学习安全约束
该研究提出了凸约束学习用于强化学习的方法,该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程(CMDP)中的约束。与以往的方法不同,该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集,从而保证安全性 - 动态物料处理的约束强化学习
本研究旨在针对动态物料搬运需求,提出了一种自适应受限强化学习算法,名为 RCPOM,并通过一个动态物料处理的模拟器 DMH-GYM,对其进行了实验评估,结果表明相较于其他 8 种受限和非受限强化学习算法以及广泛使用的作业规则,我们提出的方法 - 具有约束恢复的逆强化学习
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
- 基于模型的约束 MDP 在序列激励营销中的预算分配
本文提出采用 CMDP 框架和模型规划相结合的学习算法,解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。
- CMDP 离策略学习的近似最优原始对偶算法
本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了 DPDL 算法,并建立了样本复杂度下界,保证无约束违规。
- 通过保守的自然策略梯度原始 - 对偶算法实现约束强化学习的零约束违反
提出一种新颖的 C-NPG-PD 算法以达到全局最优并减少训练样例复杂度,解决了连续状态 - 动作空间下的限制马尔可夫决策过程问题。
- DOMiNO: 多样性优化,保持接近最优的发现策略
该论文提出了 DOMiNO 方法用于强化学习中多样性和优化的平衡,通过约束马尔可夫决策过程找到不同的策略,能够发现具有意义的多种行为并且对干扰有很强的鲁棒性。
- 面向有约束 MDPs 的无痛政策优化
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始 - 对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和 Cartp - 约束马尔科夫决策过程的更快算法和更精细分析
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 - AAAI通过原始对偶方法实现有约束强化学习的零约束违规
该研究提出了一种保守随机原始 - 对偶算法 (CSPDA),用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题,该算法能够在零约束违规的情况下实现 ε- 最优累积奖励,并提供比现有算法更有效率的复杂度。
- ACL受限马尔科夫决策过程控制的摘要
本研究通过引入基于约束马尔可夫决策过程(CMDP)的训练框架,允许用户对生成的摘要进行特定属性(例如长度限制)的控制,该框架旨在通过奖励函数和一组约束来提高摘要生成的可控性。实验结果表明,我们的 CMDP 框架有助于生成具有信息量的摘要,并 - 费用受限的贝叶斯优化的非近视方法
本文提出了将成本约束的 BO 建模为约束马尔科夫决策过程 (CMDP) 的方法,并开发了一个高效的滚动估计算法,以同时考虑成本和未来迭代次数。作者在超参数优化和传感器集选择中验证了他们的方法。
- 利用后继特征发现多样化近似最优策略
本篇研究提出了一种名为 'Diverse Successive Policies' 的新型方法,应用在强化学习中以发掘具有多样性的政策集合,进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程(CMDP) - 约束马尔可夫决策过程的原始对偶方法
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度 - 鲁棒受限制马尔科夫决策过程:在模型不确定性下进行软受限制鲁棒策略优化
本文介绍了一个基于 Constrained Markov Decision Process(CMDP)和 Robust Markov Decision Process(RMDP)的框架,即 Robust Constrained-MDPs(R