关键词self-attention layer
搜索结果 - 5
- JoMA:通过 MLP 和注意力的联合动态解构多层变形器PDF9 months ago
- 揭示 Transformer 中的 Mesa 优化算法PDF10 months ago
- Transformer 如何学习主题结构:迈向机制理解PDFa year ago
- 面向部位感知的动态模板初始化的人物再识别PDF2 years ago
- DropAttention: 一种全连接自注意力网络的正则化方法PDF5 years ago
Prev
Next