May, 2024

Transformer 模型在下一个 Token 预测中的上限和下限记忆容量

TL;DR给定一个令牌序列,如单词,下一个令牌预测的任务是预测下一个令牌的条件概率分布。我们针对仅编码器的 transformer 模型的性质进行了研究,并证明了该模型可以插值下一个令牌分布的最大上下文序列的上下界,其中下界只需最小的参数数量即可实现。