BriefGPT.xyz
Ask
alpha
关键词
dct-based attention initialization
搜索结果 - 1
基于离散余弦变换的去相关注意力视觉转换
Transformer 架构的关键是自注意机制,本文提出两种方法,一种是利用 DCT 系数进行初始化来增强辨别能力,另一种是基于 DCT 的压缩技术来减少计算开销。
PDF
a month ago
Prev
Next