BriefGPT.xyz
大模型
Ask
alpha
关键词
cas
搜索结果 - 1
基于 Transformer 的语言模型
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Arch
→
PDF
5 years ago
Prev
Next