Oct, 2024
可折叠超网络:可扩展地合并具有不同初始化和任务的变换器
Foldable SuperNets: Scalable Merging of Transformers with Different
Initializations and Tasks
TL;DR本研究解决了如何有效合并具有不同初始化和任务的大型变换器模型的问题,通过提出可折叠超网络合并(FS-Merge)方法,优化模型融合过程。FS-Merge 方法在多个设置、任务和模态下表现优异,特别是在数据有限的情况下,显著超越传统合并技术和知识蒸馏方法,展示出其强大的数据效率和适应性。