这篇论文探讨了工业多模态异常检测任务,利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架,它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时,通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明,我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能,同时实现了更快的推理速度和更低的内存占用,优于先前的多模态异常检测方法。此外,我们提出一种层裁剪技术,在性能上略有损失的同时提高了内存和时间效率。
Dec, 2023
该研究论文介绍了 RGB-3D 多模态噪声异常检测的新方法 M3DM-NR,通过利用 CLIP 的强大多模态区分能力,提出了噪声抵抗型的框架,并通过阶段性的处理实现了训练样本的去噪,最终实现了 3D-RGB 多模态噪声异常检测与分割,超过了现有的方法。
Jun, 2024
基于 RGB-D 输入,我们提出了一种轻量级的双分支重建网络 (DBRN),通过学习正常和异常样本之间的决策边界,使用深度图而不是点云输入来消除两种模态之间的对齐要求,并引入了一个重要性评分模块来辅助融合这两种模态的特征,从而在 MVTec 3D-AD 数据集上实现了 92.8% 的 AUROC,并具有很高的推理效率,无需使用大型预训练模型和记忆库。
Nov, 2023
提出了 CMDIAD 框架用于多模态工业异常检测,并通过生成跨模态幻觉来解决缺失模态的问题,探究了以点云或 RGB 图像作为主要推理模态时的性能改善原因,为制造场景中的高效异常检测奠定了基础。
May, 2024
本文提出了一种基于多模态融合的三维车辆检测方法,使用图像信息有效降低了假阳性,具有快速检测速度;通过基于通道注意力机制的多模态自适应特征融合模块,实现了对不同模态特征的自适应调节和融合技术的适应性,实验结果表明该方法能够过滤掉更多的假阳性,并在 KITTI 基准测试中获得了最快速度和更好的性能。
Sep, 2020
该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks(MV3D)框架,该框架采用多传感器融合技术,将 LIDAR 点云和 RGB 图像作为输入,并预测有方向的 3D 界限框。实验表明,该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25%和 30%,在 2D 检测中也表现出显著的技术优势。
Nov, 2016
提出了一个称为 “FusionPainting” 的多模态融合框架,它可以在语义级别上融合 2D RGB 图像和 3D 点云以提高 3D 障碍物检测性能,并在 nuScenes 检测基准测试中显示出优于其他现有方法的性能。
Jun, 2021
本文提出了一种名为 MMFusion 的多模态 3D 检测框架,以在复杂场景中实现 LiDAR 和图像的准确融合,通过实验证明,该框架不仅优于现有基准,而且尤其适用于在 KITTI 基准上检测骑自行车和行人。
Mar, 2023
本研究旨在通过将手工制作的 PCD 描述符与强大的预训练 2D 神经网络相结合,提高点云异常检测性能,提出了全面的伪多模特征(CPMF),通过使用手工制作的 PCD 描述符将 3D 模态中的局部几何信息与生成伪 2D 模态中的全局语义信息相结合,展示了 2D 和 3D 模态特征之间互补的能力和 CPMF 的有效性。
提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法,通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能,对于自动驾驶系统具有重要意义。
Feb, 2023