PoPS: 深度强化学习策略剪枝与收缩

Jan, 2020

PoPS: 深度强化学习策略剪枝与收缩

PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning

Dor Livne, Kobi Cohen

TL;DR本文介绍了一种名为 Policy Pruning and Shrinking 的深度强化学习算法，该算法利用迁移学习，通过迭代策略剪枝和缩小方法，实现了对深度神经网络的压缩表示，在不牺牲性能的情况下减少了计算成本。实验证明其在几个常见的强化学习环境中具有很强的性能。

Abstract

The recent success of deep neural networks (DNNs) for function approximation in reinforcement learning has triggered the development of Deep Reinforcement Learning (DRL) algorithms in various fields, such as robotics, computer games, natural language processing, computer vision, sensing systems, and wireless networking. Unfortunately, DNNs suffer from high <

deep reinforcement learning pruning algorithms policy pruning and shrinking transfer learning computational cost

发现论文，激发创造

强化学习剪枝深度神经网络

本文提出了 PuRL，一种基于深度强化学习（RL）的神经网络剪枝算法，通过在每个剪枝步骤上提供奖励，可以在短时间内达到与现有最先进方法相当的稀疏性和准确性。 PuRL 在 ResNet-50 模型上实现了超过 80％的稀疏性，并在 ImageNet 数据集上保持了 75.37％的 Top-1 精度，并且可以很容易地适应于各种体系结构。

Jul, 2020

用动态结构化剪枝方法压缩深度增强学习网络在自动驾驶中的应用

利用动态结构修剪方法逐渐移除无关神经元并采用组稀疏正则化器高效训练深度增强学习模型，在离散控制环境和连续控制环境中展示了与现有方法竞争力相当的压缩效果和性能

Feb, 2024

思考修剪在后门缓解中的作用：优化的视角

为了解决剔除被感染深度神经网络中的后门相关神经元的问题，在现有方法的基础上，我们提出了优化神经元剪枝（ONP）方法，结合图神经网络（GNN）和强化学习（RL），通过学习图嵌入和找到适当的剪枝策略来修复后门模型。实验证明，ONP 可以在几乎没有性能降级的情况下有效剪枝由一组后门攻击植入的后门神经元，从而实现了后门缓解领域的最新最佳性能。

May, 2024

线下增强学习单次剪枝

本研究探讨了如何在离线强化学习中应用神经网络修剪技术，通过离线修剪技术，可以在保证性能的情况下减少神经网络的大小，提高训练效率。实验结果证明在网络被修剪了 95% 的情况下，算法表现依然很好。

Dec, 2021

使用数据生成接近最优控制区域温度的深度强化学习策略

通过在基于物理一致的神经网络 (PCNNs) 上评估 DRL 代理，我们证明了 DRL 代理比基于规则的控制器表现更好，并且实现了接近最优的表现，从而提高了建筑行业的能效

Mar, 2022

深度强化学习的最优策略稀疏化和低秩分解

使用 $L_0$- 范数正则化技术稀疏化深度强化学习策略，通过低秩分解提供压缩效果，以减少计算资源消耗和限制过拟合。

Mar, 2024

深度强化学习中的剪枝网络是良好网络

近期的研究表明，深度强化学习代理在有效利用网络参数方面存在困难。我们利用先前对稀疏训练技术优势的了解，证明逐渐减少参数的大小可以使代理最大化参数的有效性。这导致网络在性能上比传统网络有显著的改进，并呈现出一种 “按比例尺” 的特性，只使用了网络参数的一小部分。

Feb, 2024

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

基于人群的组合优化强化学习

通过引入基于 Population 的强化学习思想，由于其在最大化性能时尚未预定义特定的多样性，证明了该方法产生一组互补的策略，并在三个著名的 NP-hard 问题上获得最新的强化学习结果：旅行推销员问题 (TSP)，分配式车辆路径规划问题 (CVRP) 和 01 背包问题 (KP)。在特定的 TSP 问题上，其超过先前的最先进技术，将最优性差距分为 5 个，同时缩短了推理时间超过一个数量级。

Oct, 2022

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020