Sep, 2021

搜索用于语言建模的高效 Transformer

TL;DR通过搜索一种更高效的变体,即 Primer,我们旨在降低 Transformer 模型的训练和推理成本,并且我们证实 Primer 可以在不添加额外调整的情况下显著加快训练速度。