关键词self-attention layer
搜索结果 - 5
  • JoMA:通过 MLP 和注意力的联合动态解构多层变形器
    PDF9 months ago
  • 揭示 Transformer 中的 Mesa 优化算法
    PDF10 months ago
  • Transformer 如何学习主题结构:迈向机制理解
    PDFa year ago
  • 面向部位感知的动态模板初始化的人物再识别
    PDF2 years ago
  • DropAttention: 一种全连接自注意力网络的正则化方法
    PDF5 years ago
Prev
Next