捷足先登：一种无参数的终身强化学习优化器

May, 2024

捷足先登：一种无参数的终身强化学习优化器

Pick up the PACE: A Parameter-Free Optimizer for Lifelong Reinforcement Learning

Aneesh Muppidi, Zhiyu Zhang, Heng Yang

TL;DRPACE 是一种无需超参数调整和先验知识的参数自由优化器，基于在线凸优化理论解决了终身强化学习中可塑性损失、适应新任务以及分布变化等挑战。实验证明，尽管底层优化问题是非凸和非平稳的，PACE 在 Procgen，Atari 和 Gym Control 环境中表现出色，有效缓解了可塑性损失并快速适应挑战性的分布变化。

Abstract

A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent's adaptation to new tasks. While regularization and resetting can help, they re

lifelong reinforcement learning plasticity parameter-free optimizer distribution shifts online convex optimization

发现论文，激发创造

关于策略深度强化学习中可塑性损失的研究

深度神经网络的持续学习面临着与固定数据集和凸连续学习模式不同的挑战，其中一个挑战是可塑性损失，即在线训练的神经网络显示出适应新任务的能力下降。本文通过一系列实验研究了深度增强学习中的可塑性损失和多种缓解方法，并发现在领域转移情况下可塑性损失普遍存在，许多解决方法在这种情境下失败，相反，一类 “再生” 方法能够在各种环境中保持可塑性损失的缓解效果，包括网格世界任务以及像《蒙特祖玛的复仇》和 ProcGen 这样更具挑战性的环境。

May, 2024

在脉冲神经网络中学习快速变化的缓慢

强化学习面临着应用于现实问题的巨大挑战，主要源于有限的与环境交互导致的可用数据的稀缺性。本研究引入了生物学上可行的近端策略优化的实现，通过在重要领域中显著减轻这一挑战，提高了学习的效率。

Jan, 2024

持续深度强化学习中的可塑性丧失

探讨在 Atari 2600 游戏环境中使用基于价值的强化学习方法在面对不同程度的非随机性（non-stationarity）时，其所采用的策略的丧失学习能力现象，通过对不同维度条件下的实验结果，发现这种现象与网络中激活函数的稀疏性相关，本文提出的嵌入化 ReLU (CReLUs) 激活函数可以有效提高在环境变化中的持续学习能力。

Mar, 2023

针对未知情况的调整：重新审视终身强化学习的评估策略

本文研究了终身强化学习中的关键问题，通过新的调优和评估方法，在只有百分之一的实验数据用于超参数调整的情况下，发现 DQN 和 Soft Actor Critic 方法表现不佳，而一些保持网络可塑性的算法措施表现出色，并且网络不断学习的能力与百分之一调优下的性能关联密切。

Apr, 2024

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

在线元学习之并行算法竞赛

该研究提出了一种名为 OMPAC 的在线元学习算法用于调整强化学习算法中关键的元参数以提高效率，实验证明，该方法可以在 Atari 2600 视频游戏和 Tetris 的问题上实现优越的性能。

Feb, 2017

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Feb, 2023

通过概率模型为基础的元强化学习实现数据高效的任务泛化

PACOH-RL 是一种基于模型的元强化学习算法，用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应，同时利用正则化和认知不确定性量化来引导探索和数据收集，从而在数据有限的情况下实现正向传递，适用于机器人等领域。实验结果表明，PACOH-RL 在适应新动力学条件方面优于基于模型的强化学习和基于模型的元强化学习基准，并在真实的机器人车中展示了在数据稀缺条件下实现高效强化学习策略自适应的潜力。

Nov, 2023

本地特征交换在强化学习中的泛化

通过加入通道一致的局部置换技术（CLOP）作为一种新的规则化技术，以解决给模型造成的视觉泛化问题，该技术得到了验证，在 OpenAI Procgen 基准测试中，使用 CLOP 方法训练的强化学习代理比使用其他最先进技术的代理表现出更好的泛化能力。

Apr, 2022