使用固定稀疏掩码训练神经网络

Nov, 2021

Training Neural Networks with Fixed Sparse Masks

Yi-Lin Sung, Varun Nair, Colin Raffel

TL;DR本文提出了种方法，在深度神经网络的训练过程中，仅更新极少参数，通过一个由具有最大 Fisher 信息的 k 个参数组成的稀疏掩码选择一个参数子集进行多次迭代更新。实验证明，该方法在参数有效转移学习和分布式训练方面的表现可与其他方法相匹配或超过，并且使用的存储和通信资源更少。

Abstract

During typical gradient-based training of deep neural networks, all of the model's parameters are updated at each iteration. Recent work has shown that it is possible to update only a small subset of the model's

gradient-based training deep neural networks sparse mask transfer learning distributed training

发现论文，激发创造

使用任何掩码更好地训练您的稀疏神经网络

本研究提出了一种新的稀疏训练技术，使用 “幽灵” 神经元和跳跃连接等训练初始策略来提高性能和稳定性，适用于各种稀疏掩蔽方法下的深度学习网络

Jun, 2022

大规模的真正稀疏神经网络

本文介绍了一种针对稀疏神经网络的并行训练算法、非可训练参数激活函数、隐藏神经元重要性指标等三个新型贡献，该方法能够最大程度地利用稀疏神经网络的潜力。实验结果表明，这种方法具有最前沿的性能，同时为实现环保型人工智能奠定了基础。

Feb, 2021

动态稀疏训练：通过可训练掩码层从头开始找出高效的稀疏网络

本文介绍了一种新的神经网络剪枝算法 ——Dynamic Sparse Training，它可以通过可训练的剪枝门限实现优化神经网络参数和结构，并通过反向传播动态地进行精细化调整。利用这一算法，我们可以轻松训练出效果优秀的稀疏神经网络。与其他稀疏训练算法相比，Dynamic Sparse Training 在多个网络架构上取得了业界领先水平。此外，我们还发现了传统三阶段剪枝算法的潜在问题，为更紧凑的神经网络架构设计提供了理论指导。

May, 2020

动态稀疏重参数化实现深度卷积神经网络的参数高效训练

介绍了一种新的动态稀疏重参数化方法，能够更有效地训练深度卷积神经网络，在固定的参数预算下达到最佳准确率，并发现在训练过程中探索结构自由度比增加额外的参数对网络性能的提升更为有效。

Feb, 2019

参数级软掩模用于连续学习

这篇论文提出一个名为 SPG 的新技术，通过对每个参数的重要性进行软阻塞来解决在连续学习中防止灾难性遗忘、促进知识转移和解决能力问题的目标，并取得了显著的效果。

Jun, 2023

稀疏随机网络存在：通过正则化强化通信高效的联邦学习

本研究提出了一种新的方法，用于增强随机联合学习中的通信效率，该方法在超参数随机网络上进行训练。通过优化二进制掩码而不是模型权重，实现对稀疏子网络的表征，其泛化效果与更小的目标网络相当好。与传统的联合学习中浮点权重相比，仅交换稀疏的二进制掩码，从而将通信成本降低到每个参数至多 1 个比特。通过实验证明，之前最先进的随机方法无法找到能够使用一致损失目标减少通信和存储开销的稀疏网络。为了解决这个问题，我们提出在本地目标中添加正则化项，以在子网络之间消除冗余特征并鼓励更稀疏的解决方案。大量实验证明，在一些实例中，与文献相比，通信和内存效率显著提高了五个数量级，并且在验证准确性方面几乎没有性能下降。

Sep, 2023

稀疏神经网络训练

本研究介绍了一种使用稀疏计算的神经网络训练和构建方法，通过引入额外的门变量来执行参数选择，并在小型和大型网络上进行实验验证，证明了我们的方法在稀疏神经网络模型的压缩方面取得了最先进的结果。

Nov, 2016

通信高效的稀疏随机网络联邦学习

在联邦学习中，通过使用随机二进制掩码学习最佳稀疏随机网络，避免了每轮从客户端向服务器交换权重更新的大量通信成本，大幅提高了准确性、收敛速度和模型大小，在低比特率模式下通信效率显著优于相关基准。

Sep, 2022

使用概率遮蔽进行基础模型的联邦微调

DeltaMask 是一种新颖的方法，通过使用随机掩蔽检测基金会模型中的高效子网络，并利用客户端掩蔽的随机性和稀疏性，使用概率滤波器将更新压缩成紧凑的灰度图像，在超低比特率下有效地微调基金会模型，极大地提升通信效率，同时保持模型性能。

Nov, 2023

无需增加延迟的参数高效微调

本文提出了一种任务不可知的生成稀疏掩码的方法，仅使用预训练参数的振幅信息，可以显著提高性能和存储效率，并引入了一种新颖的适配器技术，可以直接应用于预训练参数，与全细调速度相同。

May, 2023