联想变压器是一种稀疏表示学习器
介绍了一种解决多实例学习和 3D 形状识别等问题的神经网络模型 Set Transformer,该模型使用注意力机制来模拟输入集合中元素之间的交互,并且引入了一种减少计算复杂度的基于诱导点的注意力方案,实验结果表明,在处理集合结构数据时,该模型具有比其他最新方法更高的性能表现。
Oct, 2018
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络,其将自注意力操作限制在空间上邻近的一组 Token 上,并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合 Token 稀疏机制,该方法可以将 Vision Transformers 网络的 FLOPs 降低超过 60%。
Mar, 2023
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024
提出改进注意力机制的注意力内注意(AiA)模块及优化特征聚合和信息传递的 Transformer 跟踪框架 AiATrack,在多个定位基准测试上实现了最先进的性能表现。
Jul, 2022
本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。
Oct, 2021
通过从视觉感知中汲取灵感进行注意机制创新,Transformer 已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的 Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉 Transformer 骨干网络 ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。
Mar, 2024
该论文提出了 ITA,一种新颖的加速器架构,用于 Transformer 模型和相关模型的高效推理,通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现,在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美,达到 16.9 TOPS/W,而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。
Jul, 2023
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE,其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中,从而学习到具有鲁棒性的对象特征表示。
Jun, 2021
本研究提出了 Attention Free Transformer (AFT) 框架,它采用了一种高效的元素级别的矩阵运算,不需要使用点积自注意力机制,通过引入位置偏移可以降低存储复杂度,同时实现了全局连接与本地化结合的空间权重共享。在 CIFAR10、Enwik8 和 ImageNet-1K 等任务上,实验表明 AFT 框架显示出优秀的性能和高效性。
May, 2021