RADIN:在预算范围内煲汤
通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
本文介绍了一种稀疏神经网络模型的组合方法,称为稀疏模型汤。该方法使用迭代剪枝技术,通过在众多超参数配置中重新训练模型以获得相同的稀疏性,从而使得多个稀疏模型之间的参数能够平均并且相容,从而增强了这些模型的泛化能力。
Jun, 2023
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
使用不同的 Model Soups 并从中选出 Pruned Soup,比较了不同模型的表现,然后讨论了实验中发现的 weight-averaging 的局限性。
Jan, 2023
Diffusion Soup 通过对分片数据上训练的扩散模型的权重进行平均,实现了训练免费的持续学习和遗忘,从而在权重空间中从几何平均的分布中采样,提供反记忆化保证,并实现零样式混合和混合样式的零样生成。
Jun, 2024
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题,为了解决这些挑战,我们提出了低秩自适应和高斯随机权重平均的简单结合,促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试,我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性,这体现在其在未知分布任务上的表现。
May, 2024
本文提出了一种利用加权平滑的集成学习(SWEEN)方案来提高随机平均分类器的性能,并证明了 SWEEN 模型不仅能够帮助实现最佳认证鲁棒性,还能通过有效的训练来获得最优性能,同时提出了一种自适应预测算法来减少对模型预测和认证的成本,并通过实验证明 SWEEN 模型的性能显着优于候选模型集的上限,采用少量小模型构建的 SWEEN 模型可在可接受的时间内达到与单个大模型相当的性能。
May, 2020