ZipIt! 不训练合并不同任务的模型
本文提出了一个跨模型压缩深度神经网络的多任务压缩框架(MTZ),采用一种层次神经元共享和更新方案进行交叉模型压缩,通过 40%参数共享实现了轻微的精度损失。
May, 2018
在大型语言模型时代,模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法,但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法,它模块化知识为共享和专属组件,并在输入的基础上动态地合并共享和任务特定的知识,从而缩小了合并模型和微调模型之间的性能差距,并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性,对于判别性任务平均标准化得分提升了 28.34%,在生成性任务上甚至超过了微调模型的上限。
Jun, 2024
提出了 MedMerge 方法,通过合并来自不同初始化的模型的权重,从而结合学习自不同任务的特征,以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后,发现合并模型能够显著提高 F1 得分,最多可提高 3%。
Mar, 2024
该研究旨在将训练在不同任务或领域的多个 Vision Transformers (ViTs) 合并成一个统一的模型,以保持每个任务或领域的良好性能,通过提出一种简单而有效的门控网络和模型权重相似性度量方法实现整体 ViT 模型的合并和性能提升。
Dec, 2023
我们提出了一种模型合并的算法,通过使用 TALL-masks 方法识别任务支持,在保留超过 99%的单任务准确性的同时,提高了现有模型合并方法的性能,并且我们的压缩方案将存储减少了 57Gb 到 8.2Gb,保留了 99.7%的原始性能。
May, 2024
使用跨注意力机制灵活地组合独立预训练的单模态解码器,提出了一个称为 Zipper 的多塔解码器架构,解决了整合不同模态训练的多个生成基础模型的挑战。在融合语音和文本模态的实验中,我们展示了该架构在具有有限对齐文本 - 语音数据的场景中表现出很强的竞争力。我们还展示了模型的灵活性,在跨模态任务中通过冻结对应的模态塔(例如文本),以选择性地保持单模态(例如文本到文本生成)生成性能。在输出模态为文本的跨模态任务中,如自动语音识别(ASR),我们展示了冻结文本主干对性能的几乎没有影响。在输出模态为语音的文本到语音生成(TTS)任务中,我们展示了使用预训练的语音主干相比基准模型能够获得更好的性能。
May, 2024
将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型,可以同时执行所有任务,通过识别并分离共享知识和任务特定知识,并动态地集成它们,可以在很大程度上减轻参数干扰问题。
Feb, 2024
本文介绍了一种创新技术称为自适应模型融合(AdaMerging),该方法通过无监督任务算术方案自动学习模型融合的系数,既可以在任务层面上,也可以在层级层面上,而无需依赖原始训练数据。实验结果表明,与当前最先进的任务算术融合方案相比,AdaMerging 在性能上有显著的 11% 改进,并且在应用于未见过的下游任务时表现出更好的泛化能力,同时还显著提高了对数据分布漂移的鲁棒性。
Oct, 2023