May, 2024

动态专家混合:高效 Transformer 模型的自动调优方法

TL;DR通过引入动态的专家混合技术(DynMoE),我们的方法在视觉、语言和视觉 - 语言任务中取得了竞争性能,同时通过激活更少的参数来保持效率。