马尔可夫决策过程中最快的变化检测方法来实现最优控制

Sep, 2016

马尔可夫决策过程中最快的变化检测方法来实现最优控制

Quickest Change Detection Approach to Optimal Control in Markov Decision Processes with Model Changes

Taposh Banerjee, Miao Liu, Jonathan P. How

TL;DR提出一种基于最快变化检测的非稳态马尔科夫决策过程（MDP）最优控制方法，在奖励检测折衷的基础上采用两阈值切换策略来优化长期奖励表现，实验结果表明，该策略在贝叶斯和非贝叶斯情况下均优于现有的最优控制方法。

Abstract

optimal control in non-stationary markov decision processes (MDP) is a challenging problem. The aim in such a control problem is to maximize the long-term discounted reward when the transition dynamics or the rew

optimal control non-stationary markov decision processes change detection reward optimization two threshold switching strategy

发现论文，激发创造

非平稳马尔可夫决策过程的重启贝叶斯在线变点检测

研究使用贝叶斯在线变点检测算法对使用多项式分布的马尔可夫决策过程进行非定常强化学习，提出了改进的 UCRL2 算法

Apr, 2023

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

部分可观马尔可夫决策过程中最优稳态控制的几何与确定性

本研究旨在解决部分可观测的马尔科夫决策过程中最大化期望奖励的问题，将其转化为线性规划问题，并研究了用于减少搜索空间的有限随机性的最优无记忆策略的几何框架，进而通过实验说明了该方法有助于更好更快地收敛到策略梯度。

Mar, 2015

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

混淆变化的最快变化检测

我们研究了最快变化检测问题，其中变化要么是坏变化，我们的目标是检测到它，要么是令人困惑的变化，不是我们关心的。我们提出了 S-CuSum 和 J-CuSum 方法，利用两个 CuSum 统计量，并提供了分析性能保证。这两种方法在所有类型的变化分布下都是适用的，并且计算效率高，只需要简单的递归更新。

May, 2024

实践中学习：非稳态马尔可夫决策过程中的自适应决策

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024

基于在线动态模态分解与控制的工业数据流变点检测

基于在线动态模态分解与控制的新型变点检测方法适应了系统行为的变化，嵌入控制效应以追踪非线性系统的线性近似，解决了工业环境中非均匀数据流的变点检测挑战，并在合成及真实数据上验证了其竞争力。

Jul, 2024

利用强化学习处理非累计目标的决策过程

本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准 MDPs，我们可以改善最终性能和训练时间。

May, 2024

连续时间 POMDP 的近似控制

该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Feb, 2024

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022