多维鬣狗在空间归纳偏差中的应用
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
本文提出了一种利用先验卷积 IB(intrinsic bias)的 Vision transformer 架构(ViTAE)来解决长程依赖建模中存在的局限性,并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。
Feb, 2022
论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE,其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中,从而学习到具有鲁棒性的对象特征表示。
Jun, 2021
介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention,使用的多头注意力与特征数一样多,与元素数量和特征数量成线性关系,比现有的 self-attention 更快,同时在 ImageNet 数据集上保持了高准确性。
Sep, 2022
本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述,其中融合了卷积和自注意力机制,重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。
May, 2023
使用基于卷积的 Hyena 注意力替代方法,在图像分类中实现竞争力的 ImageNet-1k top-1 准确率,同时超过其他大核网络,并结合注意力进一步提高准确性。
Feb, 2024
本文提出基于自注意力块的局部信息增强模块 LIFE,通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中,在小尺寸图像分类数据集上改进了 ViTs 的性能,并将其推广到目标检测和语义分割等下游任务,在此基础上,引入了一种新的可视化方法 —— 密集注意力 Roll-Out,特别适用于密集预测任务。
May, 2023
本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能,特别地,我们研究了令牌嵌入层的作用,引入了卷积嵌入(CE),并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。 我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中,有效地提高了相应的性能,并释放了一组高效的混合 CNN / ViT,名为 CETNets,可作为通用视觉骨干。
Jul, 2022
提出了 MaxViT-UNet,一种基于编码器 - 解码器的混合视觉 Transformer,用于医学图像分割,其使用多轴自注意力机制实现了胞核区域的准确分割,并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。
May, 2023
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024