Jun, 2024

通过N-gram统计理解Transformer

TL;DR该论文描述了一种通过使用简单的N-gram基于训练数据的统计规则集来近似Transformer模型预测,从而帮助理解和解释Transformer的工作原理,包括检测训练期间的过拟合方法、计量Transformer从学习简单到更复杂的统计规则的进展程度、描述Transformer预测与N-gram规则之间的模型变异判据,以及在规则集变得越来越复杂时,N-gram规则集如何逼近Transformer模型的研究发现。