非平稳马尔可夫决策过程的重启贝叶斯在线变点检测
文章提出了一种用于检测局部平滑时间序列的协方差结构变化的统计假设检验方法,称为 Confirmatory BOCPD (CBOCPD),该方法通过确认统计显著性的变化和非变化来改善 Bayesian Online Change Point Detection (BOCPD) 算法,实验结果表明该算法产生了比现有方法更低的预测误差和更高的对数似然性。
May, 2019
提出一种基于最快变化检测的非稳态马尔科夫决策过程(MDP)最优控制方法,在奖励检测折衷的基础上采用两阈值切换策略来优化长期奖励表现,实验结果表明,该策略在贝叶斯和非贝叶斯情况下均优于现有的最优控制方法。
Sep, 2016
本文提出使用块上下文 MDP 框架来研究连续强化学习情境,该框架用于解决非稳态性和丰富的观察设置所带来的挑战,并提出了一种新算法以实现零 - shot 自适应,并在多个非稳态情境中取得了良好的表现。
Oct, 2021
本研究使用不打折扣的强化学习方法,针对马尔可夫决策过程中的漂移非稳定性问题,提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法,并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。
Jun, 2020
研究多智能体多臂赌博问题中的决策制定策略,利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限,并在合成数据集和真实数据集上进行数值实验,表明所提出的方法优于现有的算法。
Jun, 2023
研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
GLR-klUCB 是一种结合了 kl-UCB 算法和 Bernoulli 广义似然比检验的高效参数无关变点检测的算法,可以在非平稳的打赌问题中获得较小的后悔。
Feb, 2019
本文研究基于变点检测的多臂赌博机问题,提出了使用累积和和 Page-Hinkley 测试进行变点检测的 UCB 策略,并展示了在伯努利奖励和 Yahoo 数据集上的性能测试结果。
Nov, 2017
本研究在探讨非平稳马尔可夫决策过程下的强化学习问题,针对低秩模型中存在未知表示的情况,提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL,通过样本复杂度进行理论分析并得出上界,证明了在非平稳性不显著时,这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。
Aug, 2023