BriefGPT.xyz
Ask
alpha
关键词
persistent memory vectors
搜索结果 - 1
利用持久内存扩展自注意力
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
PDF
5 years ago
Prev
Next