当并非所有操作都可用时的强化学习

AAAIJun, 2019

当并非所有操作都可用时的强化学习

Reinforcement Learning When All Actions are Not Always Available

Yash Chandak, Georgios Theocharous, Blossom Metevier, Philip S. Thomas

TL;DR本文介绍了基于马尔可夫决策过程（MDP）中存在确定性可选动作集合的局限性，提出了一种新的基于随机动作集合的马尔可夫决策过程（SAS-MDP）模型，并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题，提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件，并通过真实用例启发的任务实验表明了该方法的实用性。

Abstract

The markov decision process (MDP) formulation used to model many real-world sequential decision making problems does not efficiently capture the setting where the set of available decisions (actions) at each time step is stochastic. Recently, the →

markov decision process stochastic action set rl algorithms variance reduction techniques convergence

发现论文，激发创造

随机动作集的规划与学习

研究了具有随机动作集的马尔可夫决策过程及其最优策略和值函数的性质，并针对不同情况提出了多项式时间的策略迭代和价值迭代方法。

May, 2018

马尔可夫决策过程中的非确定性策略

本文介绍了非确定性策略的新概念，以允许用户在决策过程中具有更多的灵活性，同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略，并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在 Web 导航任务中表现优异的实验中，我们展示了人类的帮助。

Jan, 2014

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

具有非稳态马尔可夫策略的延迟环境下的决策行为

该研究提出了一种针对 MDP 的决策学习与规划框架，其中决策制定者执行的动作有 $m$ 步的延迟，研究表明使用非恒定的马尔科夫策略，可以在非常大的延迟下实现最大化奖励，并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。

Jan, 2021

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

当行动被修改时，强化学习代理的行为表现

通过 Modified-Action Markov Decision Process 模型，分析了强化学习算法在受到监督控制时的适应方法，展示了一些算法能够避免执行操作的更改，开发人员可以通过选择正确的算法来更好地管理其代理响应。

Feb, 2021

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023