IBAFormer:用于领域通用的语义分割的批内注意力变换器
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
在无监督的领域自适应问题中,我们引入了 “意义感知信息瓶颈(SIB)” 的对抗网络,从而形成了新的网络结构 SIBAN 来解决现有的特征对齐问题,并在两个领域适应任务中取得了优异的结果。
Apr, 2019
本研究使用视觉 Transformer 的自注意视觉分组属性,提出了一种新型分层分组变压器(HGFormer),在不同尺度上找到部聚合模块并组合像素以形成对象级别的语义分割结果,比以像素分组的方法和以平坦分组变压器的方法具有显著更强的网络鲁棒性。
May, 2023
该论文提出了一种基于 Transformer 的图像去雨算法,结合了密集和稀疏自注意力机制,通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。
Aug, 2023
基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色,参数较现有模型更少,例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率,GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。
Nov, 2023
论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE,其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中,从而学习到具有鲁棒性的对象特征表示。
Jun, 2021
近期的研究表明,基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而,我们的分析表明,现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系,而这对于恢复退化图像的细节和缺失内容非常关键。为此,我们提出了一种具有分层注意力的高效图像处理 Transformer 架构,称为 IPTV2,采用了一种聚焦上下文自注意力(FCSA)和全局网格自注意力(GGSA),以在局部和全局感受野中获取充分的令牌交互。具体而言,FCSA 将移位窗口机制应用于通道自注意力中,有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系,在空间维度中聚合全局信息。此外,我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明,我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果,包括去噪、去模糊、去雨等,并且在性能和计算复杂度的权衡方面获得了很大的改进。此外,我们将我们的方法扩展到图像生成作为潜在扩散的支撑,显著优于 DiTs。
Mar, 2024
本研究提出了一种基于生成对抗网络的训练方法,通过利用教师 - 网络生成的注意力图来提高图像生成的质量,以及在生成的图像上执行弱目标定位。该方法在 HEp-2 细胞图像上进行了研究,表明其可以进行弱定位。该方法可用于图像生成和数据注释,例如在目标检测中。
Feb, 2018
该研究提出两种新的神经网络框架(DAFormer 和 HRDA)来解决在未标记或不可见目标域上使用源域模型的问题,以提高无监督领域适应和领域泛化的性能,并在多个基准测试中取得了显著的改进。
Apr, 2023
本文提出了一种多粒度输入自适应 Transformer 框架 MIA-Former,可以在多个粒度上调整 ViTs 的结构以适应输入图像的不同难度,并且具有改进对抗攻击鲁棒性的效果。经过实验验证,MIA-Former 能够有效地分配计算资源,并取得与 SOTA 动态 Transformer 模型相比甚至更高的准确率和更低的计算复杂度。
Dec, 2021