ParC-Net: 基于位置感知的循环卷积结合 ConvNets 和 Transformer
本研究在计算机视觉领域中,提出了一种新的神经网络算子,名为 “位置感知循环卷积(ParC)”,通过使用全局内核和循环卷积捕捉全局特征,同时采用位置嵌入来保持位置敏感性,进一步提出了其加速版本 Fast-ParC,通过 FFT 算法将复杂度 O (n2) 的 ParC 算子的时间复杂度降至 O (nlogn),这对于生成大尺度特征映射的模型在前期阶段使用全局卷积非常有用,但是仍然保持与使用 3x3 或 7x7 卷积核的总体计算成本相当。该算子可在 ViTs 和 ConvNet 模型中使用,并在各种视觉任务中取得了有效结果,同时扩大了传统 ConvNets 的有效感受野,提高了精度。
Oct, 2022
该研究提出了 ParFormer 作为一种改进的 transformer 体系结构,通过将不同的 token mixer 集成到一个阶段中,从而提高特征提取能力。与传统的窗口移动方法不同,结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块,我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明,我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善,提高了 0.5%的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外,我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说,我们的模型变种,参数为 11M,23M 和 34M 时,分别达到了 80.4%,82.1%和 83.1%的得分。
Mar, 2024
本论文提出基于 Transformer 和 ConvNet 结构的 ConTNet 模型,相较于传统的 ConvNet 模型,可以更好地捕捉全局信息,从而部署在图像分类和物体检测等任务中,具有明显的优异性。
Apr, 2021
该研究论文提出了一种名为 MaskConver 的新型全景分割架构,通过预测物体和背景的中心来实现事物和物质的完全统一表示。通过引入 ConvNeXt-UNet 解码器,该模型在 COOC 全景验证集上相比基于卷积和 transformer 的模型以及现代基于卷积的模型和 transformer-based models 取得了更好的性能,此外,优化后的 MaskConver 在移动设备上实时运行,并在相同 FLOPs / 延迟限制下提高了 6.4% 的 PQ 值。
Dec, 2023
基于同态加密的深度神经网络推理提出了一种协议 / 网络协同优化框架 PrivCirNet,利用块循环转换将 DNN 权重转化为循环矩阵,通过自定义加密算法和降低计算开销实现了低延迟和高准确性,并在多个实验中展示了其优越性能。
May, 2024
本研究提出了一种纯 transformer 的多任务行人属性识别网络,名为 PARFormer,其中包含 4 个模块:特征提取模块、特征处理模块、视点感知模块和属性识别模块,实现了竞争性的性能表现,并强调全局视角的重要性。
Apr, 2023
本文提出了一种新的医学图像分割混合架构,手持卷积神经网络和 Transformer,用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能,以实现更好的医学图像分割结果。
Jun, 2023
本篇研究介绍了 CoAtNets,这是一种基于 transformers 和卷积神经网络的混合模型,能够在图像识别领域取得最好的效果,相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。
Jun, 2021
本研究采用混合卷积神经网络和 Transformer 的混合结构,提出了一种具有自适应特征提取能力和具有全局信息建模的方法,用于医学图像分割。实验结果表明,该方法比现有的方法具有更好的医学图像分割结果。
Jun, 2023
通过并行动态路由 CapsNet(PDR-CapsNet)提出了一种比 CapsNet 更深,更节能,性能更好,能够更高效利用硬件资源的替代方法,通过减少参数,降低计算复杂度以及增加吞吐量,从而实现了对 CIFAR-10 数据集的 3 倍更快推理时间和 7.29J 更少的能量消耗。
Oct, 2023