Jun, 2024

DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰

TL;DR利用一种新的模型合并技术 DELLA-Merging,它采用了一种名为 MAGPRUNE 的修剪技术,通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p),接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专家模型和相应的基准数据集上,DELLA 相较于基线方法(delta 参数修剪)平均提升了 2.4 个点(相较于 TIES 提升了 3.6 个点,相较于 DARE 提升了 1.2 个点),相较于无修剪的基线方法(TA)提升了 11.1 个点。