Nov, 2023

语言模型之超级马里奥:从同源模型中吸收能力如午餐一般

TL;DR我们揭示了语言模型(LMs)可以通过吸收同类模型的参数而无需重新训练或使用图形处理器来获得新的能力。我们引入了一种名为 DARE(Drop And Rescale)的新操作,将绝大多数增量参数直接设为零,并可以将多个特定任务的 LM 合并为一个具有多样能力的 LM。