具有外部时间进程的马尔可夫决策过程

May, 2023

具有外部时间进程的马尔可夫决策过程

Markov Decision Process with an External Temporal Process

Ranga Shaarad Ayyagari, Ambedkar Dukkipati

TL;DR本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

Abstract

Most reinforcement learning algorithms treat the context under which they operate as a stationary, isolated and undisturbed environment. However, in the real world, the environment is constantly changing due to a variety of external influences. To address this problem, we study

reinforcement learning markov decision processes temporal process policy iteration algorithm performance analysis

发现论文，激发创造

强化学习与终结者

文章探讨了外部中断对强化学习的影响，提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中，提出了一种基于动态折扣因子和置信区间的高效算法，并与多种基准方法相比较获得了显著提升

May, 2022

标记时空点过程的深度强化学习

利用深度强化学习方法，能够处理由异步、随机、离散事件构成的连续时间情形下的智能干预问题，并应用于个性化教学和病毒式营销领域，取得了比其他方法更好的效果。

May, 2018

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

Bellman Meets Hawkes: 基于模型的时空点过程强化学习

通过 Hawkes 过程建立了异步离散事件的环境动力学模型，并开发了一种基于模型的强化学习算法，用于解决社交媒体、金融和健康信息学中广泛存在的顺序决策问题。

Jan, 2022

监控的马尔可夫决策过程

在本文中，我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程（Monitored MDPs），该框架解决了强化学习中奖励无法被完全观测到的问题，并讨论了该设置的理论和实践后果，提出了相应的算法。

Feb, 2024

在时间逻辑约束下的大致近似正确的 MDP 学习与控制

此篇论文探讨了在未知、随机环境中，通过建立模型、构造符合某些临时逻辑规则要求的 MDP，并通过 PAC-MDP 的方法，利用数据、空间和时间进行迭代更新，得到了一个在一定条件下接近最优的策略，从而达到在给定规则下最大化概率的目的。

Apr, 2014

可配置马尔可夫决策过程

本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs)，以建立环境参数配置与学习代理之间的交互模型，并通过 Safe Policy-Model Iteration (SPMI) 算法，共同自适应优化策略与环境配置，实验结果表明该方法对提高学习策略的性能有益。

Jun, 2018

实践中学习：非稳态马尔可夫决策过程中的自适应决策

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021