非马可夫环境中的政策分歧

Feb, 2023

Policy Dispersion in Non-Markovian Environment

Bohao Qu, Xiaofeng Cao, Jielong Yang, Hechang Chen, Chang Yi...

TL;DR本文提出了一个基于 transformer 的策略扩散方案，从状态 - 动作对历史数据学习不同的策略，以解决在非马尔可夫环境中由于长时历史数据和奖励的关联性导致的策略相似、过拟合等问题。实验结果表明，该策略扩散方案在多个学习环境下获得了比最近的学习基线更为稳健的性能。

Abstract

markov decision process (MDP) presents a mathematical framework to formulate the learning processes of agents in reinforcement learning. MDP is limited by the Markovian assumption that a reward only depends on th

markov decision process reinforcement learning non-markovian environment policy dispersion transformer-based method

发现论文，激发创造

具有非稳态马尔可夫策略的延迟环境下的决策行为

该研究提出了一种针对 MDP 的决策学习与规划框架，其中决策制定者执行的动作有 $m$ 步的延迟，研究表明使用非恒定的马尔科夫策略，可以在非常大的延迟下实现最大化奖励，并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。

Jan, 2021

马尔可夫决策过程中的非确定性策略

本文介绍了非确定性策略的新概念，以允许用户在决策过程中具有更多的灵活性，同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略，并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在 Web 导航任务中表现优异的实验中，我们展示了人类的帮助。

Jan, 2014

从只包含状态序列中学习非 Markov 决策制定

本文研究了一种在非 Markov 决策过程下进行深度生成建模的模型，在无法观察到动作的情况下进行模仿学习和决策制定。

Jun, 2023

当并非所有操作都可用时的强化学习

本文介绍了基于马尔可夫决策过程（MDP）中存在确定性可选动作集合的局限性，提出了一种新的基于随机动作集合的马尔可夫决策过程（SAS-MDP）模型，并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题，提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件，并通过真实用例启发的任务实验表明了该方法的实用性。

Jun, 2019

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023

可配置马尔可夫决策过程

本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs)，以建立环境参数配置与学习代理之间的交互模型，并通过 Safe Policy-Model Iteration (SPMI) 算法，共同自适应优化策略与环境配置，实验结果表明该方法对提高学习策略的性能有益。

Jun, 2018

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

基于非匹配生成模型的稳健马尔可夫决策过程的策略学习

利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达，并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题，得到了一个近似最优的强健决策。

Mar, 2022

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

实践中学习：非稳态马尔可夫决策过程中的自适应决策

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024