无先验知识的非平稳强化学习：一种最优黑盒方法

Feb, 2021

无先验知识的非平稳强化学习：一种最优黑盒方法

Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach

Chen-Yu Wei, Haipeng Luo

TL;DR本文提出一种黑盒化的方法，将某些强化学习算法在（近）平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾，并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中，我们给出一系列的例子，表明该方法不仅可以重构最近通过特殊算法实现的（上下文）多臂赌博机问题，而且还可以显著改进广义线性赌博机问题、周期性马尔科夫决策问题和无限时间马尔科夫决策问题的状态，特别是在大多数情况下，我们的算法可以达到最优动态遗憾。

Abstract

We propose a black-box reduction that turns a certain reinforcement learning algorithm with optimal regret in a (near-)stationary environment into another algorithm with optimal dynamic regret in a →

reinforcement learning non-stationary environment multi-armed bandits mdps dynamic regret

发现论文，激发创造

用于非平稳多智体强化学习的黑盒方法

本文提出了一种 black-box 的方法来学习在非稳态多智能体系统中的均衡，可以适用于广泛的问题，如一般和游戏、潜在游戏和马尔科夫游戏，并在测试次数和非稳态程度的度量下，取得了可接受的性能表现。

Jun, 2023

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

非平稳风险敏感强化学习：近似最优动态遗憾、自适应检测和分离设计

研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习，提出了两种基于重启的算法以及自适应检测不稳定性的元算法，并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。

Nov, 2022

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

非平稳环境下高效应对背景干扰的 Bandit 算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

非平稳环境中的策略优化动态遗憾

本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++，并建立了它们的动态后悔保证。

Jun, 2020

使用线性函数逼近的非平稳强化学习

这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中，通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限，提出了两种最优算法：LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持，并进行了有效性验证。

Oct, 2020

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020

一种新的非平稳情境赌博算法：高效、最优和免参数

提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法，通过引入回放阶段来保持对非平稳的探索，并在探索和开发之间保持良好的平衡。

Feb, 2019