深度强化学习中的瞬态非平稳性和泛化

Jun, 2020

深度强化学习中的瞬态非平稳性和泛化

Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning

Maximilian Igl, Gregory Farquhar, Jelena Luketina, Wendelin Boehmer, Shimon Whiteson

TL;DR该论文探讨了强化学习中非稳态性的问题，提出了一个名为 ITER 的算法来改善深度强化学习的性能，通过该算法将当前的策略知识重复迁移到一个新的网络中，从而减少非稳态性对训练的影响。实验证明，该方法有效地提高了深度强化学习的泛化性能。

Abstract

non-stationarity can arise in reinforcement learning (RL) even in stationary environments. For example, most RL algorithms collect new data throughout training, using a non-stationary behaviour policy. Due to the

reinforcement learning non-stationarity neural networks generalisation performance iterated relearning

发现论文，激发创造

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

非稳态环境下的强化学习

本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

May, 2019

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

理解和防止增强学习中的能力损失

本文研究深度强化学习中的一种现象 —— 容量丧失，提出 Initial Feature Regularization（InFeR）算法，该算法可以有效缓解容量丧失并显著提高稀疏奖励任务中的性能表现。

Apr, 2022

离线强化学习中的结构化非稳定性数据集

当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

May, 2024

非稳态环境中的广泛计划与学习的认知性探索

该论文介绍了一种在使用关系表示表示的非平稳随机环境中进行持续规划和模型学习的新方法。

Feb, 2024