利用强化学习处理非累计目标的决策过程

May, 2024

利用强化学习处理非累计目标的决策过程

Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning

Maximilian Nägele, Jan Olle, Thomas Fösel, Remmy Zen, Florian Marquardt

TL;DR本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准MDPs，我们可以改善最终性能和训练时间。

Abstract

markov decision processes (MDPs) are used to model a wide variety of applications ranging from game playing over robotics to finance. Their optimal policy typically maximizes the expected sum of rewards given at

发现论文，激发创造

特征强化学习：第一部分：非结构化MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为MDP框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行MDPs的指导，并在算法中将各个部分整合到一起。

Jun, 2009

有非马尔可夫奖励的决策论规划

该研究提出了一个软件平台 NMRDPP（Non-Markovian Reward Decision Process Planner）用于开发和实验决策理论计划的相关方法，其中包括基于现有和新方法的一系列方法，比如基于时间逻辑的非马尔可夫奖励函数的紧凑规范，启发式搜索和结构化方法，并通过 NMRDPP 比较这些方法并确定影响其性能的某些问题特征。

Sep, 2011

马尔可夫决策过程中的非确定性策略

本文介绍了非确定性策略的新概念，以允许用户在决策过程中具有更多的灵活性，同时将决策限制为近似最优解。我们提供了两种算法来计算离散领域中的非确定性策略，并在一组合成和真实世界问题上研究了这些方法的输出和运行时间。在与人类被提示使用非确定性政策在Web导航任务中表现优异的实验中，我们展示了人类的帮助。

Jan, 2014

非平稳马尔可夫决策过程：基于模型的加强学习最坏情况方法，扩展版

本研究旨在解决在非恒定随机环境下的鲁棒零-shot规划问题，通过引入定义了特定类别的马尔可夫决策过程来进行计算建模，并提出了一种零-shot基于模型的风险敏感树搜索算法。

Apr, 2019

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于MDPs的风险受限规划算法，它将UCT-like搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

非平稳MDPs中的未来优化

本文介绍了一种名为Prognosticator的策略梯度算法，这种算法通过对政策性能的预测来主动搜索一个好的未来策略，并且通过将过去数据进行非均匀重新赋权，使该算法比其他两种在线适应技术更具鲁棒性。

May, 2020

具有非稳态马尔可夫策略的延迟环境下的决策行为

该研究提出了一种针对MDP的决策学习与规划框架，其中决策制定者执行的动作有$m$步的延迟，研究表明使用非恒定的马尔科夫策略，可以在非常大的延迟下实现最大化奖励，并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。

Jan, 2021

非马尔科夫决策过程中PAC强化学习的马尔科夫抽象

本文提出了一种结合自动机学习和经典强化学习的算法，用于学习非马尔可夫决策流程中的马尔科夫抽象，并且证明该算法具有PAC保证。

Apr, 2022

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的'成本'，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

马尔可夫决策过程中的超越平均回报

马尔可夫决策过程中，奖励的功能有哪些可以精确计算和优化？我们总结了策略评估相关类的特性，给出了规划问题的新解答。同时，我们证明了只有广义平均数能够被精确优化，即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发展做出了贡献，尤其关注回报的整体特征和风险感知策略。

Oct, 2023