Hyneter：用于目标检测的混合网络变压器

Feb, 2023

Hyneter：用于目标检测的混合网络变压器

Hyneter: Hybrid Network Transformer for Object Detection

Dong Chen, Duoqian Miao, Xuerong Zhao

TL;DR本研究指出 CNN 和 Transformer 检测器之间的本质差别是特征提取和传播中的本地信息和全局依赖之间的差距，为了解决这些差异，我们提出了一种新的远景 Transformer，称为 Hybrid Network Transformer（Hyneter），该方法采用了平衡策略，在传递本地信息和全局依赖的同时，扩展了本地信息范围.

Abstract

In this paper, we point out that the essential differences between cnn-based and transformer-based detectors, which cause the worse performance of small objects in →

cnn-based transformer-based feature extraction hybrid network transformer local information

发现论文，激发创造

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020

小目标检测中的 Transformer：现有技术的评估和调查

调查了 60 多个研究论文，涵盖了 2020 年至 2023 年开发的转换器在小目标检测任务上的性能，还提供了一个 12 个大规模数据集的列表以及使用常见指标（如 mAP，FPS，参数数量等）进行了性能比较。

Sep, 2023

卷积神经网络和 Transformer 对混合图像的感知类似于人类

混合图像技术（hybrid images）与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络（CNN）和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。

Mar, 2022

EDTER: 基于 Transformer 的边缘检测

本文介绍了一种基于 transformer 的边缘检测器，利用全局上下文信息和详细的局部线索同时提取清晰和清晰的物体边界和有意义的边缘，表现比现有技术更优秀。

Mar, 2022

在文档图像中，弥合 DETR 和 R-CNN 之间图形物体检测性能差距

通过对目标查询进行修改，将现有的检测变压器应用于图像对象检测，提高了其性能，并在四个数据集上获得了新的最先进结果。

Jun, 2023

多维鬣狗在空间归纳偏差中的应用

通过使用基于多个轴的新型 Hyena 层，我们提出了一种不依赖于自注意力机制的高效视觉 Transformer，并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。

Sep, 2023

ConTNet：为什么不同时使用卷积和 Transformer？

本论文提出基于 Transformer 和 ConvNet 结构的 ConTNet 模型，相较于传统的 ConvNet 模型，可以更好地捕捉全局信息，从而部署在图像分类和物体检测等任务中，具有明显的优异性。

Apr, 2021

利用混合多任务 CNN-Transformer 网络进行乳腺超声肿瘤分类

本研究提出了一种混合多任务深度神经网络 (Hybrid-MT-ESTAN)，用于乳腺超声图像的肿瘤分类和分割，该网络结合了 CNN 和 Swin Transformer 组件，实现了对全局上下文信息的捕捉和局部图像模式的保留，并在一个包含 3320 个超声图像的数据集上与九种分类方法进行了比较，结果表明 Hybrid-MT-ESTAN 取得了 82.7% 的准确率、86.4% 的灵敏度和 86.0% 的 F1 分数。

Aug, 2023

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022