BriefGPT.xyz
大模型
Ask
alpha
关键词
denseformer
搜索结果 - 1
DenseFormer: 通过深度加权平均增强 Transformer 中的信息流传
提出了 DenseFormer 这种简单修改的转换器架构,通过在每个转换器模块之后添加一个平均步骤来改进模型的困惑度,减少了内存消耗和推理时间,并且在相同困惑度下表现优于转换器基线模型。
PDF
5 months ago
Prev
Next