多维鬣狗在空间归纳偏差中的应用

Sep, 2023

多维鬣狗在空间归纳偏差中的应用

Multi-Dimensional Hyena for Spatial Inductive Bias

Itamar Zimerman, Lior Wolf

TL;DR通过使用基于多个轴的新型 Hyena 层，我们提出了一种不依赖于自注意力机制的高效视觉 Transformer，并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。

Abstract

In recent years, vision transformers have attracted increasing interest from computer vision researchers. However, the advantage of these transformers over CNNs is only fully manifested when trained over a large dataset, mainly due to the reduced inductive bias towards spatial locality

vision transformers self-attention mechanism data-efficient vision transformer hyena n-d layer small dataset regime

发现论文，激发创造

鬣狗等级制度：朝着更大的卷积语言模型

本文介绍了 Hyena，一种亚二次的 attention 替代方法，它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建，能够有效地解决 Transformers 中 quadratic cost 的问题，并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度，同时减少了 20% 的训练计算资源。

Feb, 2023

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

探索内在归纳偏差的视觉变换器高级版

论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE，其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中，从而学习到具有鲁棒性的对象特征表示。

Jun, 2021

Hydra Attention: 多头注意力的高效实现

介绍了一种针对大型图像的高效注意力操作 ——Hydra Attention，使用的多头注意力与特征数一样多，与元素数量和特征数量成线性关系，比现有的 self-attention 更快，同时在 ImageNet 数据集上保持了高准确性。

Sep, 2022

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

HyenaPixel：基于卷积的全局图像上下文

使用基于卷积的 Hyena 注意力替代方法，在图像分类中实现竞争力的 ImageNet-1k top-1 准确率，同时超过其他大核网络，并结合注意力进一步提高准确性。

Feb, 2024

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

卷积嵌入使分层视觉 Transformer 更强大

本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能，特别地，我们研究了令牌嵌入层的作用，引入了卷积嵌入（CE），并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中，有效地提高了相应的性能，并释放了一组高效的混合 CNN / ViT，名为 CETNets，可作为通用视觉骨干。

Jul, 2022

MaxViT-UNet: 医学图像分割的多轴注意力

提出了 MaxViT-UNet，一种基于编码器 - 解码器的混合视觉 Transformer，用于医学图像分割，其使用多轴自注意力机制实现了胞核区域的准确分割，并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。

May, 2023

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024