BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient sparsity
搜索结果 - 3
大规模嵌入模型的稀疏保持差分私有训练
使用 DP-SGD 算法对大型嵌入模型进行隐私训练时,为了维持梯度稀疏性,我们提出了两个新算法 DP-FEST 和 DP-AdaFEST,能够在保持相当准确性的同时,实现梯度大小的大幅度降低($10^6 imes$)。
PDF
8 months ago
激活稀疏性的理论解释:通过平坦极小值和对抗性鲁棒性
基于梯度稀疏性和随机矩阵理论的激活稀疏性,该研究解释了深度模型中激活稀疏性的理论机制以及其在对抗鲁棒性和性能方面的重要性,并提出了几种用于训练和稀疏调整的模块和修改的方法。
PDF
10 months ago
ICLR
稀疏梯度的方差减少
本文提出了一种新的稀疏操作符:随机 Top-k 操作符,用于估计梯度稀疏性,将其与随机化坐标下降操作符结合,可降低 SVRG 和 SpiderBoost 方法的计算复杂度。实验证明该方法在各种模型和任务中的表现优于 SpiderBoost。
PDF
4 years ago
Prev
Next