BriefGPT.xyz
大模型
Ask
alpha
关键词
training iterations
搜索结果 - 4
mHuBERT-147:一种紧凑的多语言 HuBERT 模型
mHuBERT-147 是第一个以 90K 小时的干净、开源数据训练的通用多语言 HuBERT 语音表示模型,通过基于 faiss 的聚类实现了 5.2 倍更快的标签分配速度,同时应用了新的多语言批量上采样策略,在只有 95M 个参数的情况
→
PDF
24 days ago
高效彩票票据查找:少量数据更佳
本文提出了一种新的方法,通过仅使用一种特殊的数据子集来发现 Lottery Ticket Hypothesis (LTH) 中的胜彩(稀疏而关键的子网络),该子集被称为 Pruning-Aware Critical set (PrAC se
→
PDF
3 years ago
二次规范化器如何防止灾难性遗忘:插值的作用
本篇论文探讨了一种防止深度神经网络在学习连续任务时出现遗忘现象的方法,即二次正则化,通过在每次训练迭代中插值当前和先前模型参数的值来防止遗忘。但是,二次正则化存在两个问题,即训练超参数的依赖性和对深层参数的低重要性,通过简单的修改可以避免这
→
PDF
3 years ago
大规模图像分类的批归一化和权重归一化算法比较
本文探讨了批归一化算法与权重归一化算法在大规模实际应用中的表现差异。经过实验发现,虽然权重归一化算法在训练精度方面表现更好,但最终的测试精度显著低于批归一化算法,并且权重归一化算法在大规模深度网络训练上稳定性差,因此不适合大规模实际应用。
PDF
7 years ago
Prev
Next