Dec, 2023

SCCA:长上下文语义扩展的偏移交叉块注意力

TL;DR通过 Shifted Cross Chunk Attention (SCCA) 结合 Dilated Attention (DA) 和 Dilated Neighborhood Attention (DNA) 的方法,本研究在语言建模实验中使用不同的 SCCA 模式和 SCCA 与 SDA 的组合,有效地将大型语言模型(LLMs)扩展到更长的上下文,并与当前稀疏注意力相比提供了一个插拔式微调方法,以扩大模型上下文,并与大多数现有技术兼容。