BriefGPT.xyz
大模型
Ask
alpha
关键词
parameter sparsity
搜索结果 - 5
LoRA 丢弃法作为过拟合控制的稀疏正则化器
本文提出了一种 LoRA Dropout 机制,通过向可学习的低秩矩阵引入随机噪声和增加参数稀疏性,从稀疏正则化的角度证明了 LoRA Dropout 机制的理论机制,并提供了在该框架下的泛化误差界限。理论结果表明适当的稀疏性可以帮助缩小经
→
PDF
3 months ago
基础模型稀疏连接的扩展规律
我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer(即 “基础模型”)的扩展行为的影响,涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律,并通过 ViT/JFT-4B 和 T5/
→
PDF
10 months ago
ICLR
通过活性和参数的稀疏组合实现高效实时递归学习
本文提出,对于循环网络,高效的实时递归学习可以通过结合活动稀疏性和参数稀疏性得到显着的计算和存储成本节省,无需使用任何近似来学习过程。
PDF
a year ago
参数高效微调的有效性
本文介绍了 Fine-tuning pre-trained models 方法的缺点,提出了采用参数稀疏性进行参数调优的方法,并且通过理论分析表明,这种参数稀疏性会在一定程度上控制稳定性上限,提高泛化能力;同时还提出了一种新的 SAM 方法
→
PDF
2 years ago
自适应 n 元激活函数用于概率布尔逻辑
研究文章探讨了如何使用 n-ary 激活函数来填补高维模型中的可信复杂性和效率计算框架之间的空白,通过梯度优化来逐渐消除过剩复杂度,并使用零参数相关性表示对置信表进行建模和推断,从而加速对参数而非像素的优化。
PDF
2 years ago
Prev
Next