深度强化学习的最优策略稀疏化和低秩分解
利用动态结构修剪方法逐渐移除无关神经元并采用组稀疏正则化器高效训练深度增强学习模型,在离散控制环境和连续控制环境中展示了与现有方法竞争力相当的压缩效果和性能
Feb, 2024
通过字典学习和可微分 L0 正则化,我们提出了一种稀疏、稳健且可解释的参数化偏微分方程控制策略,优于基线的深度神经网络驱动强化学习策略,并能够推导出解释性的优化控制规律的方程,并在参数化 Kuramoto-Sivashinsky 和对流扩散反应偏微分方程的控制任务中展示了泛化能力。
Mar, 2024
通过深度强化学习的控制任务,对传统正则化技术在多种优化算法中的应用及效果进行综合研究,发现传统的正则化技术能够改善学习效果,特别在较难的任务中,说明正则化有助于强化学习中的泛化表现。
Oct, 2019
本文介绍了一种名为 Policy Pruning and Shrinking 的深度强化学习算法,该算法利用迁移学习,通过迭代策略剪枝和缩小方法,实现了对深度神经网络的压缩表示,在不牺牲性能的情况下减少了计算成本。实验证明其在几个常见的强化学习环境中具有很强的性能。
Jan, 2020
本研究提出了一种名为 SVD training 的神经网络压缩方法,通过正交性正则化和奇异值剪枝等技术,可以在训练过程中显式地实现降低矩阵秩的目标,从而更有效地减少 DNN 算法在低性能设备上的计算负担。
Apr, 2020
在深度强化学习领域,这项工作系统地研究了应用多种现有的稀疏训练技术在各种强化学习代理和环境中的可行性,结果发现,稀疏网络比密集网络在相同数量参数下表现更好,我们提供了有关如何改善稀疏训练方法有效性以及推进其在深度强化学习中应用的有益思路。
Jun, 2022
详细分析了正交匹配追踪(OMP)在强化学习中的可行性和效率,同时与 $L_1$ 正则化方法进行比较,并提出了支持特征字典假设的 OMP-BRM 变体和在近似准确度和效率方面优于先前方法的 OMP-TD 变体。
Jun, 2012
提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$,通过引入 smoothness-induced regularization,使学习到的 policy 对连续状态空间的过渡 smooth,提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明,该方法取得了效果的提升。
Mar, 2020
在强化学习中应用稀疏性和修剪方法对神经网络推断进行优化,从而达到能耗和延迟效率的提升,本研究针对不同强化学习算法及环境系统地进行了探索,并取得神经网络规模最多减小 400 倍的优化效果。
May, 2024
本文提出了 PuRL,一种基于深度强化学习(RL)的神经网络剪枝算法,通过在每个剪枝步骤上提供奖励,可以在短时间内达到与现有最先进方法相当的稀疏性和准确性。 PuRL 在 ResNet-50 模型上实现了超过 80% 的稀疏性,并在 ImageNet 数据集上保持了 75.37% 的 Top-1 精度,并且可以很容易地适应于各种体系结构。
Jul, 2020