关键词cross-layer attention (cla)
搜索结果 - 1
  • 使用跨层注意力减小 Transformer 键 - 值缓存大小
    PDF2 months ago
Prev
Next