Jul, 2024

注意力的解剖学研究

TL;DR我们引入一种范畴论的图示形式,以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构,其中模型之间的自然关系通过图形变换捕捉,并且重要的差异和相似之处一目了然。在本文中,我们着重于注意力机制:将民间传说转化为数学推导,并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子,我们识别了注意力的重复解剖组成部分,我们全面重组它们以探索注意力机制的变化空间。