Jun, 2023

可量化的 Transformer 模型:通过助于自注意力机制头部不做多余操作消除异常值

TL;DR研究人员提出了两种 Attention 机制的变化:Clipped softmax 和 Gated attention,它们可以帮助模型学习更小的异常值。利用这些变化,模型可以进行完整的 INT8 激活量化而无需额外的努力。