Oct, 2024

非局部模型合并问题:排列对称性和方差崩溃

TL;DR本研究针对“非局部”模型合并中的挑战,探讨传统合并技术在处理预训练专家模型显著变化时的局限性。提出了一种多任务技术,通过重新缩放和调整合并模型的输出激活,显著提升了在非局部设置下的模型合并性能,为该领域的未来研究奠定了坚实的基础。