- 关于在序列到序列模型中稀疏编码器输出的研究
利用 L0DROP 层来实现精简 Transformer 中 Encoder 输出的机制,可以在不降低结果质量的情况下减少 40-70% 的输出,提高编码速度。
- AAAI分布式深度学习压缩通信的理论分析与实际实现之间的差异
通过实验和理论分析,本文表明在深度神经网络的分布式数据并行训练中,面向单个层的压缩比面向整个模型的压缩方式更好,但实验也显示,具体训练模型和压缩率都可能导致实际收敛率的变化。因此,本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。
- 深度神经网络的可微稀疏化
本文提出一种全可微的神经网络稀疏化方法,结合随机梯度下降,可以训练参数为零的稀疏结构和权重。该方法直接适用于现代深度神经网络,对现有模型的修改最小,并为未来的结构学习和模型压缩方法奠定了基础。
- ECCV通过修剪激活梯度加速 CNN 训练
通过修剪更小的梯度和考虑激活梯度的统计分布,我们提出了一种方法来加速 CNN 训练,这将不会影响准确率。
- Qsparse-local-SGD: 带量化、稀疏化和本地计算的分布式 SGD
本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法,该算法采用聚合式稀疏化和量化,以及局部计算方法,并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。
- ACL星形转换器
本文介绍了 Star-Transformer,一种轻量级的 NLP 模型,通过精细的稀疏化将全连接注意力连接结构替换为星形拓扑结构,将复杂性从二次降为线性,同时保持了捕获局部组合和长距离依赖性的能力,并在四个任务的 22 个数据集上取得了显 - 一种带有全局 Top-k 稀疏化的分布式同步 SGD 算法,用于低带宽网络
该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高 - 超级神经元:基于 FFT 的梯度稀疏化在深度神经网络的分布式训练中的应用
使用稀疏性和基于范围的浮点表示方法,本文提出了一种新的梯度压缩框架,该框架在不影响准确性和收敛速度的情况下,显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。
- NIPS卷积神经网络快速实时非重训练稀疏化
本论文提出了三种无需重新训练即可进行卷积神经网络稀疏化的方法,研究表明,这些方法能够使得最先进的模型权重减少高达 73%(压缩因子为 3.7 倍),而最多只会损失 5%的 Top-5 精度,附加的微调只能获得 8%的稀疏度,这表明我们的快速 - NIPS带记忆的稀疏化随机梯度下降
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
- SparseNet: 一种用于图像分类的稀疏 DenseNet
本文提出了一种稀疏 DenseNet 的方法,可以使神经网络在更低的参数和计算代价下实现深度、宽度和连接的同时,在 CIFAR10 和 SVHN 数据集上比现有 state-of-the-art 模型的性能更优,并且相比原始 DenseNe - 通信高效分布式优化的梯度稀疏化
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
- ICCV协调滤波器以提高深度神经网络的速度
本文提出 Force Regularization 方法,利用引力作用来协调更多的权重信息到低秩空间中,从而使得标准的低秩逼近方法可以使用更少的基础滤波器进行滤波,加快 DNN 速度,该方法在 ResNet,AlexNet 和 GoogLe - NIPS利用稀疏性进行高效子模型数据汇总
本文研究了设施选址问题的子模优化算法,提出了一种基于稀疏化的最优算法,解决了计算所有数据项对益处的问题,以加速其在相似性的广泛问题家族中的使用。
- 随机元素级矩阵稀疏化注释
本文提出一种基于随机采样的算法用于对矩阵进行稀疏处理,同时利用分布与矩阵元素平方和绝对值相关的信息提高了近似精度。
- 关于矩阵值 Bernstein 不等式对逐元素矩阵稀疏化的注记
本研究提出一种可以对一个 n x n 的矩阵进行零化处理和元素保留的稀疏化算法,并运用一种新型的非交换 Bernstein 不等式进行分析和比较。