BriefGPT.xyz
Ask
alpha
关键词
lss transformer
搜索结果 - 1
超长序列分布式 Transformer
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法
→
PDF
8 months ago
Prev
Next