BriefGPT.xyz
Ask
alpha
关键词
fewer parameters
搜索结果 - 3
简化 Transformer 块
通过信号传播理论和经验观察,我们提出了修改的方案,可以简化标准的 Transformer 模块,包括去除跳跃连接、投影或值参数、顺序子模块和归一化层等组件,而无需牺牲训练速度,实验证明这种简化版本的 Transformer 实现了标准 Tr
→
PDF
8 months ago
EMNLP
音节感知的神经语言模型:无法打败字符感知的模型
比较音节划分和基于字符划分,在词级 RNN 语言建模的质量提高方面效果不明显。 然而,我们最好的音节感知语言模型表现出与竞争性基于字符模型相当的性能,参数少了 18%-33%,并且训练速度提高了 1.2-2.2 倍。
PDF
7 years ago
二阶卷积神经网络
本文提出一种新颖的卷积神经网络(CNN)类,它利用二阶统计量,可以形成协方差描述符单元(CDU),可以替代标准 CNN 的全连接层,并在参数少至 90%的情况下优于一阶 CNN。
PDF
7 years ago
Prev
Next