May, 2024
Transformer 模型在下一个 Token 预测中的上限和下限记忆容量
Upper and lower memory capacity bounds of transformers for next-token prediction
Liam Madden, Curtis Fox, Christos Thrampoulidis
TL;DR给定一个令牌序列,如单词,下一个令牌预测的任务是预测下一个令牌的条件概率分布。我们针对仅编码器的 transformer 模型的性质进行了研究,并证明了该模型可以插值下一个令牌分布的最大上下文序列的上下界,其中下界只需最小的参数数量即可实现。