Nov, 2023

指数级加速的语言建模

TL;DRFastBERT 是一种 BERT 变种,使用仅占其神经元的指数部分进行推断,同时表现出与类似 BERT 模型相当的性能。它通过将前馈网络替换为快速前馈网络来实现,每层推断只有 12 个神经元参与。我们提供了高效的 CPU 代码和 PyTorch 实现,分别获得了 78 倍和 40 倍的加速效果,同时发布了训练代码、基准设置和模型权重。