BriefGPT.xyz
Ask
alpha
关键词
cached transformer
搜索结果 - 1
AAAI
缓存变形器:利用可微记忆缓存改进变形器
引入一种名为 Cached Transformer 的新型 Transformer 模型,采用门控循环缓存(GRC)注意力扩展了自注意机制,实现可微分的令牌记忆缓存。GRC 注意力使得可以关注过去和当前的令牌,增大了注意力的感受野,可用于探
→
PDF
7 months ago
Prev
Next