WASH:使用通信高效的权重重排,然后平均训练你的集成模型
该论文介绍了一种基于权重平均技术和扰动策略的集成神经网络蒸馏方法,有效地将多个教师网络的功能多样性吸收到一个适合资源受限环境中使用的学生网络中,并在多个图像分类任务上显著提高了性能。
Jun, 2022
本文介绍了一种新的权重平均策略 ——Diverse Weight Averaging (DiWA),通过多次独立训练获得的模型权重进行平均,以增加模型的功能多样性,并提出了一种新的误差分解方法来说明多模型平均在测试期间建模分布发生变化时成功的原因,并通过实验证明,DiWA 在不增加推理开销的情况下始终提高了 DomainBed 基准的表现。
May, 2022
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架,通过整合在线和离线平均方法,它能够同时提高收敛速度和泛化性能,同时解决了现有 WA 方法面临的问题。实验证明,HWA 明显优于现有方法。
Apr, 2023
贝叶斯神经网络通过学习模型参数的后验分布来解决认知不确定性问题。使用该后验进行抽样和加权网络,从而形成一个被称为贝叶斯集合的集合模型。相对于个别网络,深度集合可以受益于误差抵消效应,提高预测性能。本文论证了贝叶斯集合的抽样和加权方法并不适合增加泛化性能,因为它们无法实现误差抵消效应。相反,通过优化 PAC-Bayesian 泛化约束得到模型的加权平均值可以提高泛化性能。这种加权方法需要考虑模型之间的相关性,可以通过最小化串级损失来实现。PAC-Bayesian 加权方法增强了对相关模型和性能较低模型的稳健性,因此我们可以安全地添加来自同一学习过程的多个模型到集合中,而不是使用早停法选择单一的权重配置。本研究在四个不同的分类数据集上给出了实证结果,表明尽管计算代价较高,但来自文献中的最先进的贝叶斯集合并没有改进普通权重的深度集合,并且无法与通过优化串级损失的深度集合相匹配,后者还具有非空泛化保证。
Jun, 2024
介绍了一种新的并行训练框架,Ensemble-Compression(简称 EC-DNN),该框架使用集成学习的方法来聚合本地模型,解决了参数平均方法在非凸模型上的问题,通过蒸馏方法进行压缩,实验结果表明 EC-DNN 具有许多优势。
Jun, 2016
我们提出了一种高效的协议,用于分布式数据源的分散式深度神经网络训练,该协议允许同等处理模型训练的不同阶段,并快速适应概念偏移,这导致与周期性通信的最先进的方法相比,通信减少了一个数量级。此外,我们得出一个通信限制,该限制随序列化学习问题难度的增加而缩放得很好,通信的减少几乎没有代价,因为预测性能保持几乎不变。实验证实了模型性能和通信之间的权衡的显着改进,这可能有助于许多分散式学习应用,例如自动驾驶或移动电话上的语音识别和图像分类。
Jul, 2018
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022