可配置马尔可夫决策过程

Jun, 2018

Configurable Markov Decision Processes

Alberto Maria Metelli, Mirco Mutti, Marcello Restelli

TL;DR本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs)，以建立环境参数配置与学习代理之间的交互模型，并通过 Safe Policy-Model Iteration (SPMI) 算法，共同自适应优化策略与环境配置，实验结果表明该方法对提高学习策略的性能有益。

Abstract

In many real-world problems, there is the possibility to configure, to a limited extent, some environmental parameters to improve the performance of a learning agent. In this paper, we propose a novel framework,

configurable markov decision processes safe policy-model iteration learning agent environmental parameters policy optimization

发现论文，激发创造

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

Lipschitz 可配置马尔可夫决策过程的性能改进界限

研究了满足 Lipschitz 连续性的 Configurable Markov Decision Processes（Conf-MDPs）的性能改进下界。

Feb, 2024

SPUDD：使用决策图的随机计划

本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法，并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中，相较于树形结构表示方式大幅降低了节点数量。

Jan, 2013

实践中学习：非稳态马尔可夫决策过程中的自适应决策

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024

隐含参数的马尔科夫决策过程：半参数回归方法用于发现隐含任务参数

该论文介绍了一种名为隐藏参数马尔科夫决策过程 (HiP-MDP) 的框架，用于对控制应用中的不同动态系统进行参数化，并提出了一种半参数回归方法来学习其结构。在控制设置中，学习的 HiP-MDP 能够快速识别新任务实例的动态，使得智能体能够灵活适应任务的变化。

Aug, 2013

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020