Jul, 2023

针对量化 Transformer 的高能效注意力和 Softmax 加速器

TL;DR该论文提出了 ITA,一种新颖的加速器架构,用于 Transformer 模型和相关模型的高效推理,通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现,在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美,达到 16.9 TOPS/W,而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。