Jun, 2024

Transformer 中的无限长前缀

TL;DR研究了前缀学习的学习能力,通过无限长度前缀在一层注意力网络中的表达和解决问题,证实了无限长度前缀学习在注意力中的过度参数化性质和任意小的损失收敛性保证。提出了 NTK-Attention 方法,可实现任意前缀长度的注意力计算,具有参数效率高、在多种场景中表现优越的潜力。