ICLRMar, 2024

关于共享内存中注意力因子化的困难

TL;DR通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化,可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。