Sep, 2024

赫尔墨斯:面向边缘设备的大型模型内存高效流水线推理

TL;DR本研究解决了边缘设备上大型模型推理的内存挑战,提出了PIPELOAD这一新颖的内存高效流水线执行机制。通过动态内存管理和并行模型加载,Hermes框架在推理速度上提升至4.24倍,同时内存消耗降低86.7%。