关键词multi-head attention layers
搜索结果 - 3
  • 基于 Top-k 注意力的内存高效 Transformer
    PDF3 years ago
  • 多头注意力模型中的低秩瓶颈
    PDF4 years ago
  • 快速 Transformer 解码:仅需要一个写头
    PDF5 years ago
Prev
Next