基于消耗马尔可夫决策过程的定性控制合成

May, 2020

基于消耗马尔可夫决策过程的定性控制合成

Qualitative Controller Synthesis for Consumption Markov Decision Processes

František Blahoudek, Tomáš Brázdil, Petr Novotný, Melkior Ornik, Pranay Thangeda...

TL;DR本文研究了 Consumption Markov Decision Processes（CMDPs）中具有几乎确定的 B"uchi 对象的策略综合的复杂性，并证明了该问题可以在多项式时间内解决。我们实施了该算法，并证明它可以有效地解决模拟真实情景的 CMDP 问题。

Abstract

consumption markov decision processes (CMDPs) are probabilistic decision-making models of resource-constrained systems. In a CMDP, the controller possesses a certain amount of a critical resource, such as electri

consumption markov decision processes resource-constrained systems strategy synthesis almost-sure b"uchi objectives polynomial time

发现论文，激发创造

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

线性情境马尔可夫决策过程的样本复杂度刻画

该论文研究了上下文马尔可夫决策过程（CMDPs）在线性函数逼近模型下的性质，提出了创新的基于模型的算法，并证明了其在样本复杂度方面的优越性。比较两种模型的结果表明，上下文变化的特征比所有上下文共享表示在线性 CMDPs 中具有更好的样本效率。

Feb, 2024

受限马尔科夫决策过程控制的摘要

本研究通过引入基于约束马尔可夫决策过程（CMDP）的训练框架，允许用户对生成的摘要进行特定属性（例如长度限制）的控制，该框架旨在通过奖励函数和一组约束来提高摘要生成的可控性。实验结果表明，我们的 CMDP 框架有助于生成具有信息量的摘要，并符合用户对属性的要求。

Aug, 2021

在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性

我们研究了强化学习问题中的约束马尔可夫决策过程（CMDP），并通过优化算法对 CMDP 问题的样本复杂度提出了改进，实现了优化的问题相关保证。

Feb, 2024

基于形式抽象的随机和不确定动态模型自动构造控制

自动化合成控制器，基于概率时间逻辑规范的随机动态模型，通过状态验证技术构建的 iMDP（带概率区间的马尔科夫决策过程），解决安全关键场景中面临的挑战。

Nov, 2023

马尔可夫决策过程下基于分布式避障特性的认证策略验证与合成

该研究论文介绍了以马尔可夫决策过程为基础的状态转换模型及其在控制器验证和综合方面的应用，特别是在分布到达 - 避免规范下的证书合成问题，并提出了自动化方法来合成证书和策略以及验证其正确性。

May, 2024

一种基于学习的方法，用于控制合成线性时间逻辑规范的马尔可夫决策过程

使用学习理论中的技术，通过构建包含确定性 Rabin 自动机的乘积 MDP，其奖励函数来源于 Rabin 自动机的接受条件，即可合成满足线性时态逻辑（LTL）规范的控制策略，该方法在交通控制案例研究中证明可以产生合理的控制策略，即使无法保证满足 LTL 规范。

Sep, 2014

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020