时变系统中强化学习的揭秘

Jan, 2022

Demystifying Reinforcement Learning in Time-Varying Systems

Pouya Hamadanian, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh

TL;DR探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Abstract

Recent research has turned to reinforcement learning (RL) to solve challenging decision problems, as an alternative to hand-tuned heuristics. RL can learn good policies without the need for modeling the environment's dynamics. Despite this promise, RL remains an impractical solution fo

reinforcement learning non-stationarity live systems exploration straggler mitigation

发现论文，激发创造

非稳态环境下的强化学习

本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

May, 2019

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

动态环境下强化学习算法综述

本文综述了针对动态环境模型的强化学习方法，目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应，并讨论了这些方法的优缺点以及未来的改进方向。

May, 2020

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

迈向持续强化学习：综述与展望

本文综述了关于非不变 RL（Lifelong 或非平稳 RL）的不同公式和方法的文献，提出了连续 RL 公式的分类法，并提供了连续 RL 方法的分类。此外，我们讨论了评估连续 RL 代理的重要度量和开放性问题，并强调了这方面的研究前景。

Dec, 2020

应对生涯强化学习中非稳态性的反应性探索

该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。

Jul, 2022

非定态强化学习中的节奏适应性

我们提出了一个名为 “ProST” 的前瞻性节奏框架，用于解决非稳态强化学习中的时间同步问题，通过计算最优的交互时间，实现在不同环境变化速度下的政策优化。实验结果表明，ProST 框架在高维度非稳态环境中获得了比现有方法更高的在线回报。

Sep, 2023

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

非稳态环境中的广泛计划与学习的认知性探索

该论文介绍了一种在使用关系表示表示的非平稳随机环境中进行持续规划和模型学习的新方法。

Feb, 2024