强化学习中发现和消除外生状态变量和奖励

ICMLJun, 2018

强化学习中发现和消除外生状态变量和奖励

Discovering and Removing Exogenous State Variables and Rewards for Reinforcement Learning

Thomas G. Dietterich, George Trimponias, Zhitang Chen

TL;DR本文提出了两个算法来发现外生变量，并证明了蒙特卡洛策略评估在内生 MDP 上的加速。结果显示这些算法是实用的，并且可以显著提高强化学习的速度。

Abstract

Exogenous state variables and rewards can slow down reinforcement learning by injecting uncontrolled variation into the reward signal. We formalize exogenous state variables and rewards and identify conditions under which an →

reinforcement learning mdp markov decision process monte carlo policy evaluation exogenous variables

发现论文，激发创造

带外部状态和奖励的强化学习

本文提出了一种将 MDP 分解为外源 Markov 奖励过程和内源 Markov 决策过程的方法，以优化内源的奖励，以解决外源状态变量和奖励对 MDP 强化学习造成的干扰，并给出了在线发现状态空间中混合外源和内源状态的算法，改进了强化学习的效率。

Mar, 2023

用多步反向动力学方法通过外界干扰证明的强化学习

该论文研究了如何在处理高维观测数据时，通过引入先前的表示学习方法从原始观测数据中提取内生潜在状态信息，并在存在外生噪声时进行最优规划。提出了 EX-BMDP 模型，开展了潜在状态发现研究，并介绍了基于预测路径消除算法（PPE）的算法，对于近似确定性的内生状态动态具有很好的采样和计算效率。实验表明该方法具有良好的效果。

Oct, 2021

马尔可夫决策过程之外的极限状态聚合

研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Jul, 2014

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的 ' 成本 '，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

输入驱动环境下的强化学习方差缩减

研究了输入驱动环境中的强化学习问题，提出了一种无偏差、输入依赖的基线模型及元学习方法，实验结果表明相较于状态依赖的基线模型，输入依赖的模型可以提高训练稳定性并得到更好的训练结果。

Jul, 2018

使用外部事件和可累计奖励解决关系型 MDPs 问题

本文介绍了一种符号规划算法，该算法是面向以对象为中心、独立的外部事件和捕捉库存控制等问题的服务域的，该算法具有明确的关于外部事件的关系 MDP 的性能保证，在某些技术条件下，我们的规划算法提供了关于最优值函数的单调下界。为了支持这种算法，我们使用广义一阶决策图作为知识表示，提出了新颖的评估和约简技术。我们的规划算法使用一组焦点状态，这组状态作为一个训练集，简化和近似符号解，并且可以被视为执行规划的学习。一项初步的实验评估证明了这种方法的有效性。

Jun, 2013

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

非马尔可夫奖励强化学习

研究了在具有非马尔可夫奖励的情况下，采用 Q-learning 和 R-max 算法和自动机学习算法相结合的方法用于策略学习并证明其中一些变体在极限状态下收敛到最优策略。

Dec, 2019

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023