可解释的序列优化的动态内存

MMJun, 2022

Dynamic Memory for Interpretable Sequential Optimisation

Srivas Chennu, Andrew Maher, Jamie Martin, Subash Prabanantham

TL;DR本论文提出了一种基于自适应贝叶斯学习的代理学习算法来解决强化学习中不稳定情况下的记忆流失问题，并通过统计假设检验实现了可解释性，表现良好。

Abstract

Real-world applications of reinforcement learning for recommendation and experimentation faces a practical challenge: the relative reward of different bandit arms can evolve over the lifetime of the learning agent. To deal with these non-stationary cases, the agent must forget some his

reinforcement learning adaptive optimization non-stationarity interpretability bayesian learning

发现论文，激发创造

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

无先验知识的非平稳强化学习：一种最优黑盒方法

本文提出一种黑盒化的方法，将某些强化学习算法在（近）平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾，并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中，我们给出一系列的例子，表明该方法不仅可以重构最近通过特殊算法实现的（上下文）多臂赌博机问题，而且还可以显著改进广义线性赌博机问题、周期性马尔科夫决策问题和无限时间马尔科夫决策问题的状态，特别是在大多数情况下，我们的算法可以达到最优动态遗憾。

Feb, 2021

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

非平稳风险敏感强化学习：近似最优动态遗憾、自适应检测和分离设计

研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习，提出了两种基于重启的算法以及自适应检测不稳定性的元算法，并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。

Nov, 2022

非平稳环境中的策略优化动态遗憾

本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++，并建立了它们的动态后悔保证。

Jun, 2020

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

非平稳环境下的上下文广告学习通过神经预测集成抽样

在这篇论文中，我们介绍了一种新颖的非平稳情境强化学习算法，它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制，在非平稳环境中优先采集具有最持久价值的信息，并通过对两个展现明显非平稳性的真实推荐数据集的实证评估，我们证明了我们的方法明显优于现有技术水平。

Oct, 2023

具有习惯化和恢复动态的非静态赌徒问题

提出了 ROGUE（Reducing or Gaining Unknown Efficacy）类模型及其算法 ROGUE-UCB，可捕捉到具有非稳态现象的问题模型，经实验证明优于现有算法并应用于个性化医疗干预以增加身体活动。

Jul, 2017