Sep, 2024

自注意力限制了基于变换器模型的工作记忆容量

TL;DR本研究解决了变换器基础的大型语言模型在工作记忆容量上的限制问题,尤其是在N-back任务中表现显著下降。通过引入行为科学中的执行注意力理论,研究发现自注意力机制可能是导致这一容量限制的原因,且随着N的增加,注意力分数的总熵也随之增加,表明注意力分数的分散性可能是造成N-back任务容量限制的关键因素。