Aug, 2023

通过动态专家交换在资源受限的边缘设备上提供 MoE 模型服务

TL;DR基于连续推理的资源受限混合专家模型 (PC-MoE) 能有效降低资源消耗和增加模型准确性。