BriefGPT.xyz
大模型
Ask
alpha
关键词
sparse architectures
搜索结果 - 5
ICLR
口罩、标志与学习率重置
通过理解学习率重置在结构和参数学习上的优势,我们能更接近设计更灵活的深度学习算法,能优化各种稀疏架构的集合。
PDF
4 months ago
SWAMP: 迭代幅值削减的多粒子稀疏权重平均
本文提出一种基于迭代幅值修剪 (Iterative Magnitude Pruning, IMP) 算法的改进方法 Sparse Weight Averaging with Multiple Particles (SWAMP),通过同时训练
→
PDF
a year ago
AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索
AutoMoE 利用罕见专家模型搜索出高效迪凡助手模型,较手动设计的模型可减少 3 倍的 FLOPs,与最先进的 NAS 生成的难点模型相比,可减少 23% 的 FLOPs,同时在 NMT 基准数据集上保持 BLEU 评分的平价。
PDF
2 years ago
训练稀疏翻译模型的技巧
本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题,并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩
→
PDF
3 years ago
初始化时的鲁棒剪枝
深度神经网络修剪方法的全面理论分析及其在各种网络架构上的实验验证。
PDF
4 years ago
Prev
Next