BriefGPT.xyz
大模型
Ask
alpha
关键词
interpretable attention matrix
搜索结果 - 1
SEA:具有估计注意力掩码的稀疏线性注意力
SEA 提出了稀疏线性注意力机制,通过基于核的线性注意力估计注意力矩阵,然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似,以解决 transformers 在处理长序列时的复杂性问题,并保持可解释的注意力矩阵和利用知识蒸馏来降低预训
→
PDF
9 months ago
Prev
Next