BriefGPT.xyz
Ask
alpha
关键词
sequence learning tasks
搜索结果 - 3
变换器在不同深度下能学到什么?对序列学习任务的案例研究
我们研究了具有不同深度的 transformer 架构的能力,通过设计了一套新的序列学习任务系统地评估和理解深度对 transformer 在记忆、推理、泛化和上下文泛化方面的影响。我们发现只有一个注意力层的 transformer 在记忆
→
PDF
3 months ago
平衡的共振 - 放火神经元
平衡 RF 神经元在循环脉冲神经网络中证明了其在各种序列学习任务中的有效性,其任务性能更高、产生的脉冲更少、所需参数更少,并且在训练过程中具有更快且更稳定的收敛速度。
PDF
5 months ago
多分支注意力 Transformer
本研究提出了一种名为多分支注意力 Transformer(MAT)的变体,通过平均多个分支的注意力层,并使用两种训练技术 —— 随机丢弃分支和相似初始化,对机器翻译、代码生成和自然语言理解等任务进行了实验,并取得了显著改善。
PDF
4 years ago
Prev
Next