BriefGPT.xyz
大模型
Ask
alpha
关键词
retnet
搜索结果 - 2
DenseMamba:具有密集隐藏连接的状态空间模型,用于高效的大型语言模型
通过在 SSM 中选择性地将浅层隐藏状态集成到深层中,DenseSSM 提供了一种增强隐藏信息流动的新方法,能够在保持训练并行性和推理效率的同时,显著提高各种 SSM 类型的性能。
PDF
4 months ago
保留网络:大型语言模型的转换器接班者
本文提出了 RetNet 作为大型语言模型的基础架构,同时实现了训练并行性、低成本推理和良好的性能表现。通过理论推导,提出了序列建模的 retention 机制,支持三种计算模式,即并行、循环和分块循环,并在语言建模上取得了良好的结果。
PDF
a year ago
Prev
Next