非稳态环境下的强化学习

May, 2019

Reinforcement Learning in Non-Stationary Environments

Sindhu Padakandla, Prabuchandran K. J, Shalabh Bhatnagar

TL;DR本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

Abstract

reinforcement learning (RL) methods learn optimal decisions in the presence of a stationary environment. However, the stationary assumption on the environment is very restrictive. In many real world problems like traffic signal control, robotic applications, one often encounters situat

reinforcement learning non-stationary environments long-term discounted reward change point algorithm traffic signal control

发现论文，激发创造

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

动态环境下强化学习算法综述

本文综述了针对动态环境模型的强化学习方法，目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应，并讨论了这些方法的优缺点以及未来的改进方向。

May, 2020

非平稳 MDPs 中的未来优化

本文介绍了一种名为 Prognosticator 的策略梯度算法，这种算法通过对政策性能的预测来主动搜索一个好的未来策略，并且通过将过去数据进行非均匀重新赋权，使该算法比其他两种在线适应技术更具鲁棒性。

May, 2020

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

一种针对非平稳环境下多目标强化学习的稳定策略引导算法

提出了一种能够在非稳态环境中以在线方式稳健演化一个凸覆盖策略集的新型多目标强化学习算法，并在稳态和非稳态环境中与现有算法进行比较，结果表明该算法在非稳态环境中显著优于现有算法，并在稳态环境中达到可比较的结果。

Aug, 2023

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

非稳态环境下具有昂贵特征的在线学习

在顺序决策问题中，我们扩展上下文奖励设置并允许智能体观察功能状态的子集，以同时最大化长期平均收益并在有限时间内保证减少。

Jul, 2023

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023