非平稳马尔可夫决策过程的重启贝叶斯在线变点检测

Apr, 2023

非平稳马尔可夫决策过程的重启贝叶斯在线变点检测

Restarted Bayesian Online Change-point Detection for Non-Stationary Markov Decision Processes

Reda Alami, Mohammed Mahfoud, Eric Moulines

TL;DR研究使用贝叶斯在线变点检测算法对使用多项式分布的马尔可夫决策过程进行非定常强化学习，提出了改进的 UCRL2 算法

Abstract

We consider the problem of learning in a non-stationary reinforcement learning (RL) environment, where the setting can be fully described by a piecewise stationary discrete-time markov decision process (MDP). We introduce a variant of the Restarted →

reinforcement learning bayesian online change-point detection markov decision process multinomial distribution state transition kernel

发现论文，激发创造

高斯过程协方差结构中的确认性贝叶斯在线变点检测

文章提出了一种用于检测局部平滑时间序列的协方差结构变化的统计假设检验方法，称为 Confirmatory BOCPD (CBOCPD)，该方法通过确认统计显著性的变化和非变化来改善 Bayesian Online Change Point Detection (BOCPD) 算法，实验结果表明该算法产生了比现有方法更低的预测误差和更高的对数似然性。

May, 2019

马尔可夫决策过程中最快的变化检测方法来实现最优控制

提出一种基于最快变化检测的非稳态马尔科夫决策过程（MDP）最优控制方法，在奖励检测折衷的基础上采用两阈值切换策略来优化长期奖励表现，实验结果表明，该策略在贝叶斯和非贝叶斯情况下均优于现有的最优控制方法。

Sep, 2016

面向持续学习的块上下文 MDPs

本文提出使用块上下文 MDP 框架来研究连续强化学习情境，该框架用于解决非稳态性和丰富的观察设置所带来的挑战，并提出了一种新算法以实现零 - shot 自适应，并在多个非稳态情境中取得了良好的表现。

Oct, 2021

非静态马尔科夫决策过程的强化学习：（更多）乐观的祝福

本研究使用不打折扣的强化学习方法，针对马尔可夫决策过程中的漂移非稳定性问题，提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法，并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。

Jun, 2020

多智能体多臂赌博决策分布式一致性算法

研究多智能体多臂赌博问题中的决策制定策略，利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限，并在合成数据集和真实数据集上进行数值实验，表明所提出的方法优于现有的算法。

Jun, 2023

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

高效应对分段稳定赌博机的变点检测

GLR-klUCB 是一种结合了 kl-UCB 算法和 Bernoulli 广义似然比检验的高效参数无关变点检测的算法，可以在非平稳的打赌问题中获得较小的后悔。

Feb, 2019

周期性 MDP 中的在线强化学习

本文研究了周期马尔可夫决策过程中的学习问题，提出了一种基于上界置信区间的强化学习算法，证明了该算法的性能，在理论和经验层面上都表现出良好的效果。

Mar, 2023

基于变化检测的分段静态多臂赌博机问题框架

本文研究基于变点检测的多臂赌博机问题，提出了使用累积和和 Page-Hinkley 测试进行变点检测的 UCB 策略，并展示了在伯努利奖励和 Yahoo 数据集上的性能测试结果。

Nov, 2017

非平稳低秩 MDP 的可证明高效算法

本研究在探讨非平稳马尔可夫决策过程下的强化学习问题，针对低秩模型中存在未知表示的情况，提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL，通过样本复杂度进行理论分析并得出上界，证明了在非平稳性不显著时，这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。

Aug, 2023