Jul, 2023

LongNet: 将 Transformer 扩展到 10 亿个标记

TL;DRLongNet 是 Transformer 的一种变体,引入了扩张注意力(dilated attention)来扩展序列长度,使其能够处理超过 10 亿个标记的序列,同时不会牺牲短序列的性能表现。