Hyneter:用于目标检测的混合网络变压器
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
调查了 60 多个研究论文,涵盖了 2020 年至 2023 年开发的转换器在小目标检测任务上的性能,还提供了一个 12 个大规模数据集的列表以及使用常见指标(如 mAP,FPS,参数数量等)进行了性能比较。
Sep, 2023
混合图像技术(hybrid images)与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络(CNN)和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。
Mar, 2022
本文介绍了一种基于 transformer 的边缘检测器,利用全局上下文信息和详细的局部线索同时提取清晰和清晰的物体边界和有意义的边缘,表现比现有技术更优秀。
Mar, 2022
通过对目标查询进行修改,将现有的检测变压器应用于图像对象检测,提高了其性能,并在四个数据集上获得了新的最先进结果。
Jun, 2023
通过使用基于多个轴的新型 Hyena 层,我们提出了一种不依赖于自注意力机制的高效视觉 Transformer,并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。
Sep, 2023
本论文提出基于 Transformer 和 ConvNet 结构的 ConTNet 模型,相较于传统的 ConvNet 模型,可以更好地捕捉全局信息,从而部署在图像分类和物体检测等任务中,具有明显的优异性。
Apr, 2021
本研究提出了一种混合多任务深度神经网络 (Hybrid-MT-ESTAN),用于乳腺超声图像的肿瘤分类和分割,该网络结合了 CNN 和 Swin Transformer 组件,实现了对全局上下文信息的捕捉和局部图像模式的保留,并在一个包含 3320 个超声图像的数据集上与九种分类方法进行了比较,结果表明 Hybrid-MT-ESTAN 取得了 82.7% 的准确率、86.4% 的灵敏度和 86.0% 的 F1 分数。
Aug, 2023
本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述,其中融合了卷积和自注意力机制,重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。
May, 2023
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022