MV-DETR：基于多视角检测的多模态室内物体检测

Aug, 2024

MV-DETR：基于多视角检测的多模态室内物体检测

MV-DETR: Multi-modality indoor object detection by Multi-View DEtecton TRansformers

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi...

TL;DR本文提出了一种新的MV-DETR管道，解决了RGBD数据中几何和纹理特征提取的不足。通过设计轻量级VG模块，分离编码几何和纹理线索，显著提高了检测效率和效果。实验结果表明，在ScanNetV2数据集上，该方法达到78%的AP，创造了新的最先进水平。

Abstract

We introduce a novel MV-DETR pipeline which is effective while efficient transformer based detection method. Given input RGBD data, we notice that there are super strong pretraining weights for RGB data while less effective works for depth related data. First and foremost , we argue th

发现论文，激发创造

使用Transformer进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR模型概念简单且不需要专门的库。

May, 2020

PnP-DETR：基于 Transformer 的高效视觉分析

本研究提出了一种新的PnP采样模块，将其与transformer模型结合，构建了一个端对端的PnP-DETR体系结构，从而在保证效率的同时具有更大的灵活性。

Sep, 2021

Graph-DETR3D: 重新思考重叠区域的多视角三维物体检测

本文介绍了一种利用图结构学习的方法--Graph-DETR3D--用于自动聚合多视角图像信息，以提高3D物体检测的性能。我们证明了在不同区域定位物体时，边缘区域的“截断实例”是影响DETR3D表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态3D图技术，相较于其他图像视角3D物体检测器的表现，Graph-DETR3D获得了更好的表现。

Apr, 2022

基于Transformer的二维物体检测综述

本篇论文详细回顾了二十一篇相关的论文，讨论了最近在DETR中基于Transformer方法的研究进展，并涵盖了最新的改进，包括骨干网络改造，查询设计和注意力优化。同时，我们还比较了所有检测变压器的性能和网络设计。

Jun, 2023

空间-时间增强变压器：用于多帧三维目标检测

STEMD是一种基于DETR的新型端到端框架，用于实现多帧3D物体检测，其有效地捕获了特征和相应级别的时空依赖性，并引入了空间-时间图注意力网络，以解决对象之间的空间交互作用和复杂的时间依赖性问题，控制冗余检测结果。

Jul, 2023

DQ-Det：基于Transformer的物体检测与分割的学习动态查询组合

使用基于Transformer的检测和分割方法，学习检测查询列表以从变压器网络中检索信息，并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式，生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询，一系列基于DETR的模型在多个任务中实现了一致且优秀的性能，包括物体检测，实例分割，全景分割和视频实例分割。

Jul, 2023

NeRF-Det：学习几何感知的多视角三维物体检测体积表示

NeRF-Det是一种新颖的室内3D检测方法，利用RGB图像作为输入，并通过使用NeRF来明确估计3D几何，从而提高3D检测性能，并通过共享MLP巧妙地将检测分支与NeRF分支相连接，使NeRF在检测中高效适应，并为3D检测提供了具有几何感知的体积表示。

Jul, 2023

V-DETR: 使用顶点相对位置编码的3D对象检测

使用DET框架引入一种高性能的用于点云的3D物体检测器，通过引入一种新的3D顶点相对位置编码方法，使模型集中于对象附近的点，进一步改进了管道，在ScanNetV2基准测试上取得了显著的改进。

Aug, 2023

Anyview: 可变帧室内三维物体检测的普适性方法

本文提出了一个用于室内3D物体检测的新型网络框架，能够处理实际场景中可变帧数的输入数据，并通过几何学习器、局部-全局特征交互和动态标记策略来增强模型的泛化性能。实验证明，该方法在ScanNet数据集上同时实现了良好的泛化能力和高检测准确度。

Oct, 2023

LW-DETR：实时检测的一种用于替代 YOLO 的 Transformer

本文介绍了一种轻量级检测变换器(LW-DETR)，它在实时目标检测方面优于YOLO，架构简单，由ViT编码器、投影器和浅层DETR解码器组成，结合训练有效技术和插入式窗口和全局注意力等最新技术，改进了ViT编码器的复杂性，实验证明所提出的方法在COCO和其他基准数据集上优于现有的实时检测器。

Jun, 2024