我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续改进的性能。
Aug, 2023
本文提出了一种基于 Transformer 的 3D 视觉应用中的线性注意力机制,通过全局和局部信息聚合进行关键点匹配,同时提出了联合学习来简化和加速特征匹配,最终在几个基准测试中取得了具有竞争力的性能。
Apr, 2022
该研究提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展为一般的四边形公式,并将其整合到平面和分层视觉变换器中,提出了一种新的架构 QFormer,可用于分类、目标检测、语义分割和姿态估计等各种视觉任务,且具有较小的代码修改和可忽略的额外计算成本。
Mar, 2023
本文提出了一种 K-NN 自注意力机制,具有更好的速度和准确率,且适用于各种不同种类的 transformer 结构,从而可以提高图像识别的性能。
May, 2021
该论文提出了一种名为 “ripple attention” 的新的、用于视觉 transformer 的次二次注意力机制,可以在线性可观测的时间内量化各令牌对查询的贡献,以实现对于相对空间距离的加权;实验结果表明,此机制对于各种视觉任务非常有效。
Oct, 2021
本文提出了一种名为 Treeformer 的新型 transformer 模型,通过采用基于决策树的层次化导航方法,将 attention 计算的检索成本从线性降低为几乎对数级,同时使用 TF-Attention 和 TC-Attention 两种 attention 层实现了性能优于基准 Transformer 30 倍 FLOPs 的结果。
Aug, 2022
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
本文介绍了一种名为 OcTr 的基于八叉树的 Transformer 方法,通过动态构建八叉树从而实现对远距离或 / 和遮挡物体的有效检测,进一步提出了一种混合位置编码方法以增强前景感知,实验表明 OcTr 方法在 Waymo 开放数据集和 KITTI 数据集上均取得了最新的最佳结果。
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
使用集合转换器在分层框架中对点云进行形状分类和分割,实现了状态 - of-the-art 的性能,并可用于处理大规模稀疏数据。
Jul, 2022