通过平均训练以不同超参数配置微调的模型,提高现有模型的性能和鲁棒性,从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。
Mar, 2022
本文介绍了一种稀疏神经网络模型的组合方法,称为稀疏模型汤。该方法使用迭代剪枝技术,通过在众多超参数配置中重新训练模型以获得相同的稀疏性,从而使得多个稀疏模型之间的参数能够平均并且相容,从而增强了这些模型的泛化能力。
Jun, 2023
通过使用平均集成的日志绩效近似模型汤的性能,我们提出了一种加速模型汤的方法。理论上证实了集成日志与权重平均模型汤在任何混合比例下的一致性。我们的资源调整模型汤方法在允许灵活的评估预算的同时,相比以前的贪婪方法能够在更低的预算下提高性能(ImageNet 上高达 4%)。
Jan, 2024
Diffusion Soup 通过对分片数据上训练的扩散模型的权重进行平均,实现了训练免费的持续学习和遗忘,从而在权重空间中从几何平均的分布中采样,提供反记忆化保证,并实现零样式混合和混合样式的零样生成。
Jun, 2024
本文介绍了一种名为 Instant Soup Pruning (ISP) 的卷积神经网络模型剪枝方法,使用该方法在不需要昂贵硬件的情况下,生成小型剪枝模型子网络,并成功将该方法应用于两个大规模预训练模型:CLIP 和 BERT,我们的实验结果表明,与其他剪枝方法相比,ISP 非常有效。
我们提出了混合模型汤的流形混合模型算法,通过以最佳方式混合多个微调模型的潜在空间流形来生成融合模型,该融合模型在分布转移时表现显著提高(与最佳单个模型相比提高 3.5%),并且在微调所用的原始数据集上也提供更高的准确率。
Aug, 2023
本文提出了一种新的计划性生长和修剪(GaP)方法,通过重复生长图层子集并在一定训练后将它们修剪回稀疏状态,以减少计算和内存成本,同时保持模型质量。实验结果表明,该方法获得的稀疏模型在各种任务中的性能都优于先前最先进的算法,并且无需预训练密集模型即可获得高质量的结果。
Jun, 2021
本文评估了三种在深度神经网络中引入稀疏性的技术,并对两个大规模的学习任务进行了严格评估,结果表明,简单的幅度剪枝方法可以获得相当或更好的性能,而不能从头开始训练稀疏结构,并强调了建立大规模基准测试的必要性。
Feb, 2019
介绍了基于 ImageNet 预训练的卷积神经网络(CNNs)在最先进的方法中的应用,提出了一组新的基于 Caffe 框架的著名最新结构的预训练模型,并且包括 ResNets、AlexNet 和 VGG19 的批归一化变体等模型,优于以前的具有相同架构的模型。
Dec, 2016
介绍了一种有效的大型预训练模型微调方法,通过使用更少的模型实现更精确的权重,提供了出色的分布内(ID)和分布外(OOD)性能。
Mar, 2024