强化学习与终结者

May, 2022

Reinforcement Learning with a Terminator

Guy Tennenholtz, Nadav Merlis, Lior Shani, Shie Mannor, Uri Shalit...

TL;DR文章探讨了外部中断对强化学习的影响，提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中，提出了一种基于动态折扣因子和置信区间的高效算法，并与多种基准方法相比较获得了显著提升

Abstract

We present the problem of reinforcement learning with exogenous termination. We define the Termination Markov Decision Process (termdp), an extension of the MDP framework, in which episodes may be interrupted by

reinforcement learning termdp external interruption dynamic discount factor regret

发现论文，激发创造

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023

面临威胁的强化学习

本文介绍了一种面向对抗环境的 Markov 决策过程（TMDPs）框架，提出了 level-k 思考策略，并通过实验验证了在考虑敌手因素的情况下学习模型的好处。

Sep, 2018

监控的马尔可夫决策过程

在本文中，我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程（Monitored MDPs），该框架解决了强化学习中奖励无法被完全观测到的问题，并讨论了该设置的理论和实践后果，提出了相应的算法。

Feb, 2024

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

终止判定器

该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题，提出了一种算法以选项的压缩性能作为终止条件，并利用经典选项框架学习选项转换模型作为终止条件的 “评论家”，通过这种方式得出的选项具有实际意义，对学习和规划都有用。

Feb, 2019

利用强化学习处理非累计目标的决策过程

本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准 MDPs，我们可以改善最终性能和训练时间。

May, 2024