深度强化学习在生命周期非稳态环境下的应用

Jun, 2020

深度强化学习在生命周期非稳态环境下的应用

Deep Reinforcement Learning amidst Lifelong Non-Stationarity

Annie Xie, James Harrison, Chelsea Finn

TL;DR在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Abstract

As humans, our goals and our environment are persistently changing throughout our lifetime based on our experiences, actions, and internal and external drives. In contrast, typical reinforcement learning problem set-ups consider decision processes that are stationary across episodes. C

reinforcement learning non-stationary settings latent variable models off-policy algorithms environment shift

发现论文，激发创造

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

非稳态环境下的强化学习

本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

May, 2019

应对生涯强化学习中非稳态性的反应性探索

该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。

Jul, 2022

迈向持续强化学习：综述与展望

本文综述了关于非不变 RL（Lifelong 或非平稳 RL）的不同公式和方法的文献，提出了连续 RL 公式的分类法，并提供了连续 RL 方法的分类。此外，我们讨论了评估连续 RL 代理的重要度量和开放性问题，并强调了这方面的研究前景。

Dec, 2020

离线强化学习中的结构化非稳定性数据集

当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

May, 2024

深度强化学习中的瞬态非平稳性和泛化

该论文探讨了强化学习中非稳态性的问题，提出了一个名为 ITER 的算法来改善深度强化学习的性能，通过该算法将当前的策略知识重复迁移到一个新的网络中，从而减少非稳态性对训练的影响。实验证明，该方法有效地提高了深度强化学习的泛化性能。

Jun, 2020

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

非稳态环境中的广泛计划与学习的认知性探索

该论文介绍了一种在使用关系表示表示的非平稳随机环境中进行持续规划和模型学习的新方法。

Feb, 2024

机器人基于离线数据的终身学习中的遗忘和不平衡问题

本文介绍了在生命周期内，机器人应该如何快速适应不断变化的环境，在强化学习领域下提出了离线蒸馏管道算法，解决了传统算法在新旧环境中表现的困境以及在多种环境中训练数据失衡等问题，并通过模拟仿生机器人步行任务的实验进行了检验。

Apr, 2022