May, 2024

通过合并专家在专家混合中学习更广义的专家

TL;DR通过在混合专家中引入共享层,我们观察到性能下降。为了解决这个问题,我们跟踪每个专家的使用频率并合并两个最常选择的专家,然后使用专家组合来更新最不常选择的专家。结合后续的路由器专家选择学习,我们的算法在多领域任务增量学习中提高了迁移学习并缓解了灾难性遗忘。