ICLRMar, 2024
关于共享内存中注意力因子化的困难
On Difficulties of Attention Factorization through Shared Memory
Uladzislau Yorsh, Martin Holeňa, Ondřej Bojar, David Herel
TL;DR通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化,可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。