关键词stochastic weight averaging
搜索结果 - 12
- 自适应随机加权平均
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现 - 超越固定训练持续时间的尺度定律和计算优化训练
通过研究模型的规模和训练行为,本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法,并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能,从而减少计算和 GPU 时间,实现规模实验的效率提升。
- 事后反转:我们是否过早选择模型?
在这篇文章中,作者提出了后企业行的选择技术,通过后企业行指标在模型开发决策中,如早停,检查点和更广的超参数选择,对模型进行指导。
- 通过位置感知的复制粘贴数据增强实现遮挡下的实例分割
采用鲁棒的数据增强技术和深度学习架构,通过提出一种新的数据增强技术、采用混合任务级联(HTC)框架和 CBNetV2 作为骨干架构以及引入 Stochastic Weight Averaging(SWA)训练策略,该论文在篮球场景中分割人体 - ICLR随机表示的长尾分类解耦训练
探讨解耦表示学习和分类器学习在长尾数据分类上的有效性,应用随机加权平均法提高模型泛化能力并提出一种基于不确定性的分类器重新训练算法,实验证明本研究所提出方法在预测准确率和不确定性估计方面优于先前的方法。
- AAAI频率正则化提高对抗鲁棒性
本研究在深度神经网络安全领域提出了一种方法,即通过频率正则化和随机权重平均方法,提高 Adversarial Training 的鲁棒性,实现对 PGD-20、C&W、Autoattack 等方式的攻击具有更加强大的抵抗能力。
- EMNLP通过随机权重平均改进预训练语言模型的泛化能力
本文提出了一种基于 Stochastic Weight Averaging 的优化方法,用于改善预训练语言模型在 NLP 任务中的泛化能力,而无需额外计算成本,并展示了其在不同模型架构和任务中的出色表现。
- 平坦极小值优化器何时有效?
通过比较基于平坦极小点优化器的损失曲面和在计算机视觉、自然语言处理和图表示学习任务的广泛基准测试中,我们发现了一些令人惊讶的发现,希望这能帮助研究人员进一步改进深度学习优化器,并帮助实践者为其问题选择正确的优化器。
- ICCVVSPW 2021 挑战赛第五名解决方案
本文介绍了我们在 VSPW 2021 挑战中采用的解决方案,基于两个基准模型(Swin Transformer 和 MaskFormer),采用随机权重平均技术和分层集成策略来提高性能。同时,我们尝试解决长尾识别和过度拟合问题,虽然在测试子 - ACL用随机加权平均方法测试 ALBERT 的情感分析任务鲁棒性
本研究研究了模型的鲁棒性,特别是在情绪分析任务上的鲁棒性,通过研究 ALBERT 与 SWA 的结合来分析 SWA 的稳定性,通过 CheckList 准则量化稳定性,发现 SWA 不仅可以降低错误率,还可以集成模型贯穿梯度下降轨迹的快照来 - ICLR无标签数据有多种一致的解释:为什么您应该平均
研究了半监督学习中的一种基于一致性正则化的方法,提出使用随机权重平均和快速随机权重平均来加速模型的训练,达到了最先进的结果
- 平均权重导致更宽的随机局部极小值和更好的泛化
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着