Jun, 2023

Transformer 中多头注意力的记忆容量

TL;DR本文探讨了 Transformers 中的 multi-head attention 的记忆能力,并通过理论分析和实验验证证明:在输入数据恒定的情况下,具有 H 个 attention 头部的层具有记忆容量为 O (Hn),在图像分类任务中得出结论。