Jan, 2024

闪电关注 - 2:在大型语言模型中处理无限序列长度的免费午餐

TL;DR该论文介绍了 Lightning Attention-2,首个能实现线性注意力的理论计算优势的线性注意力实现方法,通过利用平铺技术和 GPU 硬件,充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性,并且比其他注意力机制更快。