增强强化学习的泛化性和可塑性以提高样本效率

Jun, 2023

增强强化学习的泛化性和可塑性以提高样本效率

Enhancing Generalization and Plasticity for Sample Efficient Reinforcement Learning

Hojoon Lee, Hanseul Cho, Hyunseung Kim, Daehoon Gwak, Joonkee Kim...

TL;DR通过对 off-policy RL 算法强化学习算法进行实证分析，我们发现，Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率，具有较高的泛化性和可塑性。

Abstract

In reinforcement learning (RL), enhancing sample efficiency is crucial, particularly in scenarios when data acquisition is costly and risky. In principle, off-policy rl algorithms can improve sample efficiency by

reinforcement learning off-policy rl algorithms sharpness-aware minimization generalizability plasticity

发现论文，激发创造

通过多次重复采样，离线强化学习算法在连续控制中具有高样本效率

该论文提出了一种基于 SMR（样本多次重用）的强化学习方法，通过多次重复使用样本，可以在单次优化循环中更好地利用它们，从而显著提高了基本方法的样本效率。

May, 2023

具有样本重用的广义近端策略优化

研究利用理论达到策略提升保证的同时，结合较高的数据效率进行决策，通过广义的近端优化，基于样本的有效复用，实现了稳定性和样本效率之间的有效平衡，从而在表现上有了提高。

Oct, 2021

重访视觉强化学习中的可塑性：数据、模块和训练阶段

基于神经网络的高性能、高效样本视觉增强强化学习的主要研究领域之一是塑性。本研究通过系统性实证研究揭示了数据增强、评论者的塑性损失、塑性恢复等关键组成部分对塑性的影响，并提出了一种基于评论者塑性水平动态调整回放率来解决高回放率困境的策略，该策略在早期避免了塑性损失，并在后期重用更频繁的情况下提高样本效率。

Oct, 2023

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

为何敏锐度感知最小化的泛化能力优于 SGD?

训练大型神经网络时，过拟合的挑战变得日益重要。为解决这一问题，Sharpness-Aware Minimization（SAM）作为一种有希望的训练方法出现，可在存在标签噪声的情况下提高神经网络的泛化性能。然而，对于非线性神经网络和分类任务领域，对 SAM 工作原理的深入理解仍然较为缺乏。本文通过演示为什么 SAM 对某种数据模型和两层卷积 ReLU 网络优于随机梯度下降（SGD），填补了这一空白。我们所研究问题的损失函数景观是非光滑的，因此基于 Hessian 信息的当前解释对于 SAM 成功的原因是不充分的。我们的结果解释了 SAM 的好处，特别是它能防止在早期阶段噪声学习，从而促进更有效的特征学习。在合成数据和真实数据上的实验证实了我们的理论。

Oct, 2023

高回放率赋予样本高效的多智能体强化学习

增加重播比例（或更新至数据比例）可以显著提高多智能体强化学习算法的样本效率。

Apr, 2024

策略微调：连接高样本效率离线与在线强化学习

本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习，提出了一个新的策略微调问题 —— 在线 RL 中，学习者在某种意义下可以接近最优策略，并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在线策略微调算法，达到了更好的样本复杂度。

Jun, 2021

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

快照强化学习：利用先前轨迹提高效率

该论文提出了 Snapshot Reinforcement Learning (SnapshotRL) 框架，通过改变环境而不修改算法和模型来提高采样效率，实验证明将 S3RL 与 TD3、SAC 和 PPO 算法相结合可以显著提高 MuJoCo 基准测试的采样效率和平均回报。

Mar, 2024