BriefGPT.xyz
Ask
alpha
关键词
gated linear units
搜索结果 - 4
基于权重分解的双线性多层感知机案例
利用三阶张量和线性操作的方法,将双线性层分解为一组稀疏交互特征向量,展示了在浅层图像分类器(MNIST)和小型语言模型(Tiny Stories)的初步实验中具有有希望的解释性性质。这种分解与模型原始计算完全等价,因此双线性层可能是一种具有
→
PDF
a month ago
MABViT - 改进的注意力模块增强视觉 Transformer
我们提出了一种新颖的变压器变体,在注意力块中集成了非线性处理,以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明,基于 GLU 的激活函数超过了当前的 Vision Transformers 在 Ima
→
PDF
7 months ago
GLU 变体改进 Transformer
本研究测试了变化的 GLU,其中用不同的非线性(或线性)函数代替 sigmoid,发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。
PDF
4 years ago
卷积序列到序列学习
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
PDF
7 years ago
Prev
Next