Jul, 2024

混合动态剪枝:高效Transformer推理的一种路径

TL;DR通过使用头部稀疏性、块稀疏性和近似机会来减少注意力计算和降低内存访问,我们引入了一种新颖的混合动态剪枝算法-架构共设计方法,以加速 Transformer 模型在边缘设备上的部署,同时提出 HDP 协处理器架构来支持这些方法的低延迟和高能效。