BriefGPT.xyz
Ask
alpha
关键词
depth-to-width ratio
搜索结果 - 2
深度和初始化对无限宽神经切向核的影响
本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核(Neural Tangent Kernel)及其性质,发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明,在超参数空间中,有序、混沌和混沌边缘三个阶段很重要。在
→
PDF
2 years ago
ICML
哪种 transformer 架构适合我的数据?自注意力中的词汇瓶颈
论文研究了 Transformer 的结构配置问题,并且提出了嵌入秩瓶颈的概念,通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响,同时提出了一种排查 ALBERT 和 T5 在 NLP
→
PDF
3 years ago
Prev
Next