深度强化学习的最优策略稀疏化和低秩分解

Mar, 2024

深度强化学习的最优策略稀疏化和低秩分解

Optimal Policy Sparsification and Low Rank Decomposition for Deep Reinforcement Learning

Vikram Goddla

TL;DR使用 $L_0$- 范数正则化技术稀疏化深度强化学习策略，通过低秩分解提供压缩效果，以减少计算资源消耗和限制过拟合。

Abstract

deep reinforcement learning(DRL) has shown significant promise in a wide range of applications including computer games and robotics. Yet, training DRL policies consume extraordinary computing resources resulting in dense policies which are prone to overfitting. Moreover, inference wit

deep reinforcement learning sparsification compression l0-norm regularization computational resources

发现论文，激发创造

用动态结构化剪枝方法压缩深度增强学习网络在自动驾驶中的应用

利用动态结构修剪方法逐渐移除无关神经元并采用组稀疏正则化器高效训练深度增强学习模型，在离散控制环境和连续控制环境中展示了与现有方法竞争力相当的压缩效果和性能

Feb, 2024

基于深度强化学习与可微 L0 稀疏多项式策略的参数化偏微分方程控制

通过字典学习和可微分 L0 正则化，我们提出了一种稀疏、稳健且可解释的参数化偏微分方程控制策略，优于基线的深度神经网络驱动强化学习策略，并能够推导出解释性的优化控制规律的方程，并在参数化 Kuramoto-Sivashinsky 和对流扩散反应偏微分方程的控制任务中展示了泛化能力。

Mar, 2024

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

PoPS: 深度强化学习策略剪枝与收缩

本文介绍了一种名为 Policy Pruning and Shrinking 的深度强化学习算法，该算法利用迁移学习，通过迭代策略剪枝和缩小方法，实现了对深度神经网络的压缩表示，在不牺牲性能的情况下减少了计算成本。实验证明其在几个常见的强化学习环境中具有很强的性能。

Jan, 2020

通过奇异向量正交正则化和奇异值稀疏化学习低秩深度神经网络

本研究提出了一种名为 SVD training 的神经网络压缩方法，通过正交性正则化和奇异值剪枝等技术，可以在训练过程中显式地实现降低矩阵秩的目标，从而更有效地减少 DNN 算法在低性能设备上的计算负担。

Apr, 2020

深度强化学习稀疏训练的现状

在深度强化学习领域，这项工作系统地研究了应用多种现有的稀疏训练技术在各种强化学习代理和环境中的可行性，结果发现，稀疏网络比密集网络在相同数量参数下表现更好，我们提供了有关如何改善稀疏训练方法有效性以及推进其在深度强化学习中应用的有益思路。

Jun, 2022

稀疏强化学习的贪心算法

详细分析了正交匹配追踪（OMP）在强化学习中的可行性和效率，同时与 $L_1$ 正则化方法进行比较，并提出了支持特征字典假设的 OMP-BRM 变体和在近似准确度和效率方面优于先前方法的 OMP-TD 变体。

Jun, 2012

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

强化学习任务的神经网络压缩

在强化学习中应用稀疏性和修剪方法对神经网络推断进行优化，从而达到能耗和延迟效率的提升，本研究针对不同强化学习算法及环境系统地进行了探索，并取得神经网络规模最多减小 400 倍的优化效果。

May, 2024

强化学习剪枝深度神经网络

本文提出了 PuRL，一种基于深度强化学习（RL）的神经网络剪枝算法，通过在每个剪枝步骤上提供奖励，可以在短时间内达到与现有最先进方法相当的稀疏性和准确性。 PuRL 在 ResNet-50 模型上实现了超过 80％的稀疏性，并在 ImageNet 数据集上保持了 75.37％的 Top-1 精度，并且可以很容易地适应于各种体系结构。

Jul, 2020