针对未知情况的调整：重新审视终身强化学习的评估策略

Apr, 2024

针对未知情况的调整：重新审视终身强化学习的评估策略

Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL

Golnaz Mesbahi, Olya Mastikhina, Parham Mohammad Panahi, Martha White, Adam White

TL;DR本文研究了终身强化学习中的关键问题，通过新的调优和评估方法，在只有百分之一的实验数据用于超参数调整的情况下，发现 DQN 和 Soft Actor Critic 方法表现不佳，而一些保持网络可塑性的算法措施表现出色，并且网络不断学习的能力与百分之一调优下的性能关联密切。

Abstract

In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyp

lifelong reinforcement learning hyperparameter tuning empirical methodologies dqn soft actor critic

发现论文，激发创造

应对生涯强化学习中非稳态性的反应性探索

该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。

Jul, 2022

迈向持续强化学习：综述与展望

本文综述了关于非不变 RL（Lifelong 或非平稳 RL）的不同公式和方法的文献，提出了连续 RL 公式的分类法，并提供了连续 RL 方法的分类。此外，我们讨论了评估连续 RL 代理的重要度量和开放性问题，并强调了这方面的研究前景。

Dec, 2020

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

作为终身学习现实场景的持续协调

本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021

实时策略游戏综合终身强化学习智能体系统设计

本文介绍了 L2RLCF 框架以及通过 Starcraft-2 小游戏实现不同组件的整合，从而实现连续学习的能力并进行全面客观的比较。

Dec, 2022

连续学习中的超参数：现实检验

连续学习算法的评估方法不仅不切实际，而且不能有效地评估算法的连续学习能力，通过基于提议的协议在类增量学习方案上的实验，我们不仅观察到现有评估方法未能适当评估各个算法的连续学习能力，还观察到一些最近提出的报告表现优越的先进算法实际上与以前的算法相比表现较差。

Mar, 2024

终身学习中的持续评估：发现稳定性差距

本论文提出一个连续的学习框架，旨在解决神经网络训练过程中遗忘的问题，并定义了一系列新的指标来实现对学习机的实时评估，研究表明既有重放机制又有正则化机制的在线学习方法都存在稳定性差距的问题。

May, 2022

强化学习中的超参数及其调整方法

本论文旨在提高深度强化学习的可重复性，通过比较多个 HPO 工具，展示了 HPO 方法通常具有更高的性能和更低的计算开销，并提出采用从 AutoML 中建立的最佳实践，以及在广泛的搜索空间内进行原则性的 HPO。最终，论文推荐了一套适用于 RL 社区的最佳实践，以实现更强的实证结果、更少的计算成本、更好的可重复性和更快的进展。

Jun, 2023

永远不止于学习：机器人强化学习中微调的有效性

本论文提出了一种通过强化学习进行增量式 fine-tuning 的方法，可以有效地将图像为基础的机器人操作策略适应到新的环境、物体和感知中，在不到数据学习任务的 0.2％的情况下实现适应，这种方式可以大幅提高任务的性能表现，并且在连续学习场景下仍保持一致稳定。

Apr, 2020

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023