Apr, 2024

Transformer 可以表示 $n$-gram 语言模型

TL;DR该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系,通过分析机器学习模型的概率表示能力,提供了对 Transformer 语言模型代表概率分布的机制的初步认识。