BriefGPT.xyz
Ask
alpha
关键词
lsg architecture
搜索结果 - 1
LSG 注意力机制:将预训练的 Transformer 推广到长序列
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长
→
PDF
2 years ago
Prev
Next