带熵正则化的约束马尔可夫决策过程的双重方法
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程,引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布,并与利用因果熵正则化的软 Markov 决策过程进行了比较,在强化学习问题中应用稀疏 MDP 方法,优于现有方法在收敛速度和性能方面。
Sep, 2017
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度,并表明它产生优于现有启发式算法的控制。
Jan, 2021
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。
Mar, 2024
提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义,适用于动作和状态熵的任意混合,其中,动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。
Feb, 2023
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
Jan, 2022
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系,提供了匹配我们的上界的下界,以多项式因子缩放。此外,我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限,从而刻画了与 Kakade 梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明,在熵正则化自然策略梯度方法中,整体误差随迭代次数的平方根呈指数级别衰减,从而改进了现有的亚线性保证。
Jun, 2024
本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明,这两种方法都可以实现 sublinear regret,但是线性规划方法具有更强的保障性。
Mar, 2020