面向有方向物体检测的空间转换解耦

Aug, 2023

面向有方向物体检测的空间转换解耦

Spatial Transform Decoupling for Oriented Object Detection

Hongtian Yu, Yunjie Tian, Qixiang Ye, Yunfan Liu

TL;DR通过空间转换解耦 (STD) 技术，该研究提出了一种简单而有效的方法，用于使用 Vision Transformers 进行定向物体检测，并取得了最先进的性能。

Abstract

vision transformers (vits) have achieved remarkable success in computer vision tasks. However, their potential in rotation-sensitive scenarios has not been fully explored, and this limitation may be inherently at

vision transformers spatial transform decoupling oriented object detection vits state-of-the-art performance

发现论文，激发创造

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

STD: 稀疏到稠密的点云三维物体检测器

通过 KTTI 数据集，我们使用 STD 模型实现了一个高效的两阶段 3D 目标检测方法，包括 bottom-up 的提议生成和 IoU 的边框预测，出色地表现在较难的设置中。

Jul, 2019

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

基于 Transformer 的双目图像立体感知三维物体检测

本文提出 TS3D，一种基于 Transformer 的立体感知 3D 物体检测器，其中包括一种新颖的视差位置编码模型（DAPE）和 Stereo Reserving Feature Pyramid Network（SRFPN），使其在 KITTI 测试集上取得了 41.29％的平均精度。

Apr, 2023

MsSVT++: 混合尺度稀疏体素变换与中心投票用于 3D 物体检测

3D 目标检测中的突出问题是大规模室外场景下对象尺度的变化，需要同时获取远距离和细粒度信息的特征。为了解决这一问题，我们提出了 MsSVT++，一种创新的混合尺度稀疏体素变换器，通过分治方法同时捕捉两类信息。使用棋盘采样策略和哈希映射在 3D 体素空间中进行稀疏的体素采样和聚集操作，以减轻基于窗口的变换器的计算复杂性。同时，引入了中心投票模块，将混合尺度上下文信息丰富的新体素朝着对象中心进行集成，从而提高了精确的对象定位。广泛的实验证明，我们的单阶段检测器在 MsSVT++ 的基础上，对不同的数据集始终表现出优异的性能。

Jan, 2024

ChangeViT: 释放纯视觉 Transformer 的变化检测能力

本文介绍了一种利用 ViTs 骨干结构进行大规模变化检测的 ChangeViT 框架，并引入细节捕获模块和特征注入器，使 ChangeViT 在检测大规模变化和捕获细粒度细节方面表现出色，并在 LEVIR-CD、WHU-CD、CLCD 和 OSCD 四个数据集上取得最先进的性能，验证了该方法的有效性。

Jun, 2024

基于随机共振变压器的子标记视觉转换器嵌入

我们发现 Vision Transformers（ViTs）中存在量化伪像，这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言，我们建议使用通过子标记空间平移扰动输入图像获得的特征集合，灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”（SRT），我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征，捕捉到更多的局部细粒度结构，这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上，并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显，在三种不同架构上，我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中，SRT 也在所有指标上均改进了基线模型，平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上，SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后，尽管 SRT 仅基于像素级特征进行操作，但它也适用于像图像检索和目标发现这样的非密集预测任务，分别产生了一致的改进效果，最多分别提高了 2.6% 和 1.0%。

Oct, 2023

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022