野外多模态查询对象检测
本文介绍了一个名为 ContextDET 的多模态模型,该模型解决了现有的 MLLMs 在物体检测方面的局限性,可以对人机交互中的视觉单元进行定位、识别和分配,意义重大。
May, 2023
本文提出一种基于多模态预训练的语言条件检测框架,能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”,解决多数据集训练中的技术难题,并成功应用于超过 35 个目标检测任务,取得最新成果。
Sep, 2022
该研究提出了基于 transformer-based 的 MDETR 多模态推理系统,能够从图像中提取物体并进行相关性文本推理,实验表明在对象检测、自然语言问题回答等任务中均获得了最佳表现。
Apr, 2021
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
提出了 EfficientQ3M,一种高效、模块化、多模态的解决方案,用于基于 transformer 的 3D 目标检测模型中的对象查询初始化。通过与 “模态平衡” 的 transformer 解码器相结合,该方法能够在解码器过程中使查询能够访问所有传感器模态,并在竞争激烈的 nuScenes 基准测试中超越现有方法,展示了基于输入的多模态查询初始化的优势,并且比 LiDAR - 摄像机初始化的可用替代方法更高效。该方法可以应用于任何组合的传感器模态作为输入,展示了它的模块化特性。
Oct, 2023
提出了一种名为 OV-DQUO 的开放词汇 DETR,利用去噪文本查询训练和未知对象监督的方法,通过通配符匹配和对比学习来解决开放词汇检测器中基本类别和新类别之间的信心偏见,能够在 OV-COCO 和 OV-LVIS 基准测试上取得新的最先进结果 45.6 AP50 和 39.3 mAP,而无需额外的训练数据。
May, 2024
该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
Aug, 2023
使用基于 Transformer 的检测和分割方法,学习检测查询列表以从变压器网络中检索信息,并学习预测每个查询中一个特定对象的位置和类别。通过学习基于图像的高层语义的动态系数的凸组合的方式,生成的动态查询更好地捕获不同图像中对象位置和类别的先验信息。利用我们的模态查询,一系列基于 DETR 的模型在多个任务中实现了一致且优秀的性能,包括物体检测,实例分割,全景分割和视频实例分割。
Jul, 2023
本文提出了一种预训练 DETR 检测器的强大框架,命名为 METR,通过引入预训练语言模型将经典的目标检测器多分类转化为二分类,从而在不需要手动标注标签空间的情况下利用多个数据集联合预训练模型,并通过组合二分匹配策略实现预测。在大量实验中表明 METR 具有出色的性能表现,并可高度灵活地传递到各种 DETR-like 检测器上。
Apr, 2023
提出了一种新的多模态三维物体检测方法 - CAT-Det,将深度学习和对比学习相结合,更好地利用 LiDAR 和 RGB 图像之间的互补信息来提高检测准确性。
Apr, 2022