BriefGPT.xyz
Ask
alpha
关键词
sparse double descent
搜索结果 - 4
稀疏双谷操作
该论文研究了双下降现象在两层神经网络中的作用,重点关注了 L1 正则化和表示维度的作用。研究探讨了稀疏双下降这一替代的双下降现象,并强调了模型复杂度、稀疏性和泛化之间的复杂关系,建议进一步研究更多样化的模型和数据集。这些发现有助于深入理解神
→
PDF
6 months ago
稀疏双峰下反药物的追求
在能效方案中,找到深度学习模型的最佳大小非常重要且具有广泛的影响。本文的研究目标是高效地寻找最佳折中方法,针对稀疏双下降现象提出了解决方案,包括使用 L2 正则化方法以及通过知识蒸馏来规范学生模型,实验结果表明这些方法可以避免该现象的发生。
PDF
10 months ago
视觉 Transformer 中的稀疏二次下降:真实还是虚幻的威胁?
Vision transformers are state-of-the-art models that use attention to identify key features in images, but their perform
→
PDF
a year ago
ICML
稀疏双峰下降:网络修剪加剧过拟合
我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外
→
PDF
2 years ago
Prev
Next