Vote2Cap-DETR++:解耦定位与描述的端到端三维稠密字幕
3DGCTR 是一个统一的框架,通过重新考虑 3DVG 模型的基于提示的定位能力,将轻量级字幕头集成到现有的 3DVG 网络中,通过提取提示中的定位信息,有效地提升了 3DDC 的能力,实现了同时进行多任务训练,互相增强性能。
Apr, 2024
该研究提出了一种基于 transformer 的 encoder-decoder 结构的 3D 密集描述方法,包含相对空间感知机制,可以精准地为 3D 场景中的每个场景对象实现目标检测和自然语言描述生成。在两个基准数据集 ScanRefer 和 ReferIt3D 上,该方法均优于基线模型 Scan2Cap。
Apr, 2022
我们引入了 Cascade-DETR 用于高质量的通用目标检测,通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题,通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性,我们重新审视了查询的评分,不依赖于分类分数,而是预测查询的预期 IoU,从而显著提高了置信度的校准性,最后,我们引入了一个包含来自多个领域的 10 个数据集的通用目标检测基准,UDB10,在 COCO 上也取得了最新的进展,Cascade-DETR 在 UDB10 的所有数据集上都对基于 DETR 的检测器有了显著的改进,有些甚至超过 10 个 mAP,严格质量要求下的改进效果更加显著。
Jul, 2023
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
3D 密集的图像描述是一个新兴的视觉 - 语言桥接任务,旨在为 3D 场景生成多个详细准确的描述。本文提供了一份综合性的 3D 密集图像描述综述,涵盖了任务定义、架构分类、数据集分析、评估指标和深入的繁荣讨论。通过综合以前的文献,我们提炼了一个作为现有方法共同范例的标准流程,并提出了一种清晰的现有模型分类方法,并总结了不同模块中涉及的技术,并进行了详细的实验分析。同时,我们也提出了一系列有前景的 3D 密集图像描述的未来方向,并将其与相关任务的发展相结合,为这一领域的未来研究提供有价值的见解和启发。我们的目标是提供对 3D 密集图像描述的全面理解,促进进一步的研究,并在多媒体和相关领域的新应用的发展中做出贡献。
Mar, 2024
本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型,通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升,该模型使用 Transformer,并采用师生框架来构建。在实验中,通过对特征进行对齐和融合,提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息,而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实,X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平,分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。
Mar, 2022
本文提出了一种名为 CapDet 的新方法,通过将开放世界检测和密集字幕任务统一到一个框架中,引入额外的密集字幕头生成区域定位的字幕,以预测给定类别列表下的结果或直接生成预测边界框的类别,并证明该方法通过加入字幕任务,提高了检测性能的概括能力,并在密集字幕任务上取得了类似 VG V1.2 上 15.44% 和 VG-COCO 数据集上 13.98% 的 MAP 等方面的最先进性能。
Mar, 2023
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念简单且不需要专门的库。
May, 2020
室外三维密集字幕生成中存在诸多挑战,如室内和室外场景之间的领域差异、数据匮乏等,本文提出了室外三维密集字幕生成的新任务,并引入使用 BEV 表示的 TOD3Cap 网络来生成物体边界框和丰富的字幕,通过 TOD3Cap 数据集进行评估,结果表明我们的网络在室外场景中能够有效地定位和生成字幕,比基线方法有显著提升(+9.6 [email protected])。
Mar, 2024
本文介绍了使用 Scan2Cap 方法对 3D 扫描中的物体进行检测和描述,在生成的描述中使用注意力机制和消息传递图模块,取得了显著的性能提升。
Dec, 2020