Nov, 2021

注意力近似稀疏分布式存储

TL;DR该研究发现,在某些数据条件下,Transformer Attention 机制与 Kanerva 的 Sparse Distributed Memory 有密切关联,可以提供 Attention 的新的计算和生物学解释,进一步确认预训练的 GPT2 Transformer 模型已满足这些条件。