MV-DETR:基于多视角检测的多模态室内物体检测
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR模型概念简单且不需要专门的库。
May, 2020
本研究提出了一种新的PnP采样模块,将其与transformer模型结合,构建了一个端对端的PnP-DETR体系结构,从而在保证效率的同时具有更大的灵活性。
Sep, 2021
本文介绍了一种利用图结构学习的方法--Graph-DETR3D--用于自动聚合多视角图像信息,以提高3D物体检测的性能。我们证明了在不同区域定位物体时,边缘区域的“截断实例”是影响DETR3D表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态3D图技术,相较于其他图像视角3D物体检测器的表现,Graph-DETR3D获得了更好的表现。
Apr, 2022
本篇论文详细回顾了二十一篇相关的论文,讨论了最近在DETR中基于Transformer方法的研究进展,并涵盖了最新的改进,包括骨干网络改造,查询设计和注意力优化。同时,我们还比较了所有检测变压器的性能和网络设计。
Jun, 2023
STEMD是一种基于DETR的新型端到端框架,用于实现多帧3D物体检测,其有效地捕获了特征和相应级别的时空依赖性,并引入了空间-时间图注意力网络,以解决对象之间的空间交互作用和复杂的时间依赖性问题,控制冗余检测结果。
Jul, 2023
使用基于Transformer的检测和分割方法,学习检测查询列表以从变压器网络中检索信息,并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式,生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询,一系列基于DETR的模型在多个任务中实现了一致且优秀的性能,包括物体检测,实例分割,全景分割和视频实例分割。
Jul, 2023
NeRF-Det是一种新颖的室内3D检测方法,利用RGB图像作为输入,并通过使用NeRF来明确估计3D几何,从而提高3D检测性能,并通过共享MLP巧妙地将检测分支与NeRF分支相连接,使NeRF在检测中高效适应,并为3D检测提供了具有几何感知的体积表示。
Jul, 2023
使用DET框架引入一种高性能的用于点云的3D物体检测器,通过引入一种新的3D顶点相对位置编码方法,使模型集中于对象附近的点,进一步改进了管道,在ScanNetV2基准测试上取得了显著的改进。
Aug, 2023
本文提出了一个用于室内3D物体检测的新型网络框架,能够处理实际场景中可变帧数的输入数据,并通过几何学习器、局部-全局特征交互和动态标记策略来增强模型的泛化性能。实验证明,该方法在ScanNet数据集上同时实现了良好的泛化能力和高检测准确度。
Oct, 2023
本文介绍了一种轻量级检测变换器(LW-DETR),它在实时目标检测方面优于YOLO,架构简单,由ViT编码器、投影器和浅层DETR解码器组成,结合训练有效技术和插入式窗口和全局注意力等最新技术,改进了ViT编码器的复杂性,实验证明所提出的方法在COCO和其他基准数据集上优于现有的实时检测器。
Jun, 2024