May, 2024

基于离散余弦变换的去相关注意力视觉转换

TL;DRTransformer 架构的关键是自注意机制,本文提出两种方法,一种是利用 DCT 系数进行初始化来增强辨别能力,另一种是基于 DCT 的压缩技术来减少计算开销。