RADIN：在预算范围内煲汤

Jan, 2024

RADIN: Souping on a Budget

Thibaut Menes, Olivier Risser-Maroix

TL;DR通过使用平均集成的日志绩效近似模型汤的性能，我们提出了一种加速模型汤的方法。理论上证实了集成日志与权重平均模型汤在任何混合比例下的一致性。我们的资源调整模型汤方法在允许灵活的评估预算的同时，相比以前的贪婪方法能够在更低的预算下提高性能（ImageNet 上高达 4%）。

Abstract

model soups, extending stochastic weights averaging (SWA), combine models fine-tuned with different hyperparameters. Yet, their adoption is hindered by →

model soups stochastic weights averaging computational challenges ensemble logits resource adjusted soups crafting

发现论文，激发创造

模型集成：对多个微调模型的权重进行平均可提高准确度且不增加推理时间

通过平均训练以不同超参数配置微调的模型，提高现有模型的性能和鲁棒性，从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。

Mar, 2022

稀疏模型汤：通过模型平均实现剪枝改进的配方

本文介绍了一种稀疏神经网络模型的组合方法，称为稀疏模型汤。该方法使用迭代剪枝技术，通过在众多超参数配置中重新训练模型以获得相同的稀疏性，从而使得多个稀疏模型之间的参数能够平均并且相容，从而增强了这些模型的泛化能力。

Jun, 2023

WASH：使用通信高效的权重重排，然后平均训练你的集成模型

WASH 是一种新的分布式方法，用于训练模型集合以进行权重平均化，实现了最先进的图像分类准确性。

May, 2024

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

通过模型压缩提高推理性能，不增加计算时间

使用不同的 Model Soups 并从中选出 Pruned Soup，比较了不同模型的表现，然后讨论了实验中发现的 weight-averaging 的局限性。

Jan, 2023

扩散汤：文本到图像扩散模型的模型合并

Diffusion Soup 通过对分片数据上训练的扩散模型的权重进行平均，实现了训练免费的持续学习和遗忘，从而在权重空间中从几何平均的分布中采样，提供反记忆化保证，并实现零样式混合和混合样式的零样生成。

Jun, 2024

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

大规模语言模型的贝叶斯低秩自适应的高斯随机权重平均化

基于小数据集的精调大型语言模型常常存在过度自信和校准不佳的问题，为了解决这些挑战，我们提出了低秩自适应和高斯随机权重平均的简单结合，促进了大型语言模型中的近似贝叶斯推断。通过在多个自然语言处理基准测试中进行广泛测试，我们证明了我们简单而高效的方法能够提高模型的泛化能力和校准性。我们进一步展示了我们的方法在分布变化方面表现出更强的鲁棒性，这体现在其在未知分布任务上的表现。

May, 2024

无标签数据有多种一致的解释：为什么您应该平均

研究了半监督学习中的一种基于一致性正则化的方法，提出使用随机权重平均和快速随机权重平均来加速模型的训练，达到了最先进的结果

Jun, 2018

通过平滑加权集合提高认证的鲁棒性

本文提出了一种利用加权平滑的集成学习（SWEEN）方案来提高随机平均分类器的性能，并证明了 SWEEN 模型不仅能够帮助实现最佳认证鲁棒性，还能通过有效的训练来获得最优性能，同时提出了一种自适应预测算法来减少对模型预测和认证的成本，并通过实验证明 SWEEN 模型的性能显着优于候选模型集的上限，采用少量小模型构建的 SWEEN 模型可在可接受的时间内达到与单个大模型相当的性能。

May, 2020