Oct, 2023

抑制因子:ReLU和基于加法的注意力用于高效Transformer

TL;DR通过替代点积和基于Softmax的注意力机制,将其替换为仅包含加法和ReLU激活的替代机制,以提高量化Transformer的计算效率,并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化Transformer模型。