Jul, 2022
N-Grammer: 使用潜在 n-gram 扩充 Transformer
N-Grammer: Augmenting Transformers with latent n-grams
Aurko Roy, Rohan Anil, Guangda Lai, Benjamin Lee, Jeffrey Zhao...
TL;DR本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。