Jan, 2024

SwapNet: 边缘AI设备上高效交换的DNN推断处理超出内存预算

TL;DR在边缘人工智能设备上执行深度神经网络(DNNs)可以实现各种自主移动计算应用,但是边缘人工智能设备的内存预算限制了此类应用中允许的DNN数量和复杂性。为了避免这些缺点,我们将DNN分解为块并按顺序进行交换,以使大规模DNN能够在较小的内存预算内执行。然而,在边缘人工智能设备上进行简单的交换会由于DNN开发生态系统中的冗余内存操作而导致显著延迟。为此,我们开发了SwapNet,一种用于边缘人工智能设备的高效DNN块交换中间件。我们在保持与边缘人工智能设备的深度学习框架、GPU后端和硬件架构兼容的同时,系统地消除了块交换过程中不必要的内存操作。我们通过一个多DNN调度方案进一步展示了SwapNet的实用性。在三个应用中对十一个DNN推断任务的评估结果表明,即使DNN在可用预算之外需要2.32倍至5.81倍的内存,SwapNet的延迟几乎与具有充足内存的情况相同。SwapNet的设计还为将大型语言模型(LLMs)部署到边缘人工智能设备上提供了新颖而可行的见解。