低分辨率自注意力用于语义分割
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
本研究旨在设计一种新的关注区块,其见解来自于 SR 网络的局部归因图解释。我们使用轻量级全局像素访问模块处理全局区域,使用 Intra-Patch 自我关注模块处理局部区域,并使用级联补丁划分策略来提高恢复图像的感知质量。实验结果表明,我们的方法比最先进的轻量级 SR 方法表现更好。
Nov, 2022
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
该论文提出一种新的 CNN 模型结构和快速空间注意力机制,能够在实时高分辨率图像和视频上进行语义分割,同时实现更好的准确性和速度。在 Cityscapes 数据集中,该模型在单个 Titan X GPU 上实现了 74.4% mIoU 的 72 FPS 和 75.5% mIoU 的 58 FPS,比现有方法快约 50%,并保持相同的准确性。
Jul, 2020
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型性能。
Sep, 2023
本文通过从通道设置和空间处理两个方面综合调查了本地自注意力和其同行的性能,发现空间注意力的生成和应用是影响性能的关键因素,提出了增强型本地自注意力(ELSA)并通过实验验证其有效性。
Dec, 2021
本文研究计算机视觉中深度神经网络由于其特征提取能力,会在图像中关注一些关键的像素区域,但我们通过量化和统计表明,DNN 存在严重的注意偏差问题;通过现有的自注意机制有一定的缓解,但仍然存在偏差,因此我们提出了一个轻量级的 LSAS 策略,通过高阶子注意模块来改进原始的自注意模块,并通过实验证明其有效性。
May, 2023
提出了一种名为 “长短变压器” 的模型,其中使用自注意力机制处理长文本和高分辨率图像,同时引入了一种新型的远距离关注和短期关注机制,并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现,该方法优于现有的方法。
Jul, 2021
基于 Transformer 的多视角三维重建算法中,引入长距离分组注意力机制(LGA)以处理来自不同视角的复杂图像令牌,从而提高模型学习效果,并通过进阶上采样解码器实现相对高分辨率的体素生成,实验结果验证了该方法在多视角重建中达到了 SOTA 准确性。
Aug, 2023