用Transformer进行的多目标追踪的对比学习
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和Transformer编码器-解码器架构构建DETR模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR模型概念简单且不需要专门的库。
May, 2020
TrackFormer是基于编码器-解码器变压器架构的端到端可训练的多目标追踪方法,利用注意力实现帧到帧的数据关联,以查询的形式自回归地跟踪现有轨迹并初始化新轨迹,能够实现目前最先进的多目标跟踪的性能。
Jan, 2021
DetCo是一种创新的对比学习方法,通过充分探索全局图像和局部图像补丁之间的对比,学习有助于目标检测的判别性表示,实验表明其不仅在目标检测方面优于现有方法,在分割,姿态估计和三维形状预测方面也显著优于监督方法。
Feb, 2021
提出了一种新的多模态三维物体检测方法 - CAT-Det,将深度学习和对比学习相结合,更好地利用LiDAR和RGB图像之间的互补信息来提高检测准确性。
Apr, 2022
本文针对DET向有向物体检测的扩展做出首例有力的DINO基线,并提出了一种用于缓解重复预测的简单成本和匈牙利匹配的新型去噪策略,该模型的性能在DOTA-v1.0 / v1.5 / v2.0和DIOR-R基准测试中均达到了最先进水平。
May, 2023
本篇论文详细回顾了二十一篇相关的论文,讨论了最近在DETR中基于Transformer方法的研究进展,并涵盖了最新的改进,包括骨干网络改造,查询设计和注意力优化。同时,我们还比较了所有检测变压器的性能和网络设计。
Jun, 2023
使用基于Transformer的检测和分割方法,学习检测查询列表以从变压器网络中检索信息,并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式,生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询,一系列基于DETR的模型在多个任务中实现了一致且优秀的性能,包括物体检测,实例分割,全景分割和视频实例分割。
Jul, 2023
基于Transformer的目标检测器(DETR)在机器视觉任务中表现出显著性能,但其在处理遮挡和对抗扰动等不同图像干扰方面存在问题。我们通过多种实验和将DETR与基于卷积神经网络(CNN)的检测器(如YOLO和Faster-RCNN)进行基准测试来研究这个问题。我们发现DETR在处理遮挡图像的信息丢失干扰方面表现良好。然而,在涂有对抗标记的图像上,网络需要产生一组新的不必要的键、查询和值,导致网络方向错误。与图像损坏基准测试中YOLOv5相比,DETR的性能也较差。此外,我们发现DETR在进行预测时严重依赖于主要查询,导致查询之间的贡献不平衡,因为主要查询接收大部分梯度流。
Oct, 2023
使用预训练的深度神经网络在少量可用数据中实现强大结果,针对密集问题如物体检测,学习图像中的局部信息而非全局信息被证明更有效。为了解决这个问题,我们对最近在社区中表现良好且具有生成多样化目标提案特性的基于Transformer的物体检测器感兴趣,在此工作中,我们提出了一种利用该特性的新型无监督整体预训练方法ProSeCo,使用检测器生成的大量目标提案进行对比学习,从而允许使用较小的批量大小,并结合物体级特征学习图像中的局部信息。为了改善对比损失的有效性,在选择正样本时引入物体位置信息以考虑多个重叠的目标提案。当重用预训练的骨干网络时,我们主张在骨干网络和检测头之间一致学习局部信息。我们证明了我们的方法在使用较少数据进行物体检测的无监督预训练中优于现有方法,在标准和新颖的基准测试中表现出色。
Oct, 2023