基于CLIP模型的细粒度文本和图像引导的点云补全
本文基于Contrastive Vision-Language Pre-training (CLIP)提出了一种对应 PointCloud 数据和 3D 文本分类的零样本和小样本学习模型 PointCLIP,并通过在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上的实验证明其有效性。
Dec, 2021
利用跨注意力机制和自我关注机制设计新型神经网络PointAttN,消除了现有方法中局部区域划分对点云密度分布敏感的问题,其在处理点云的过程中以点为基本单位进行计算,以简单而有效的方式直接建立点之间的短程和长程结构关系,因此可以精确地捕捉三维形状的结构信息,并预测具有高度详细几何形状的完整点云。PointAttN在Completion3D和PCN等流行基准测试中优于现有技术的表现,代码可在 https URL 上获取。
Mar, 2022
本文提出了一种新的方法,将点云补全问题转化为集合转换问题,并设计了一种名为PoinTr的新模型,采用Transformer编码器-解码器架构进行点云补全。通过将点云表示为带有位置嵌入的无序点组的集合,我们将输入数据转换为点代理的序列,并使用Transformer进行生成。为了更好地利用点云的3D几何结构的归纳偏差,我们进一步设计了一个几何感知块,以显式模拟本地几何关系。我们还进一步提出了AdaPoinTr,并在点云完成期间开发了自适应查询生成机制和新颖的去噪任务,实现了模型的高效和有效训练。我们还展示了我们的方法可以扩展到场景级点云完成方案,并设计了一种新的几何增强语义场景完成框架。我们的方法在现有和新提出的数据集上进行了大量实验证明其有效性,获得了6.53CD的PCN,0.81CD的ShapeNet-55和0.392MMD的真实KITTI,在各种基准测试中均超过了其他工作,并建立了新的技术水平。值得注意的是,AdaPoinTr可以以更高的吞吐量和更少的FLOP实现如此令人满意的性能,而不像以前的最佳方法。
Jan, 2023
本文提出了一种新型的Text4Point框架,通过利用2D图像作为连接点云和语言模态的桥梁,建立图像和点云的对应关系,从而通过对比学习将其对齐;并进一步引入文本查询模块,查询点云特征的文本嵌入,将语言信息整合到3D表示学习中,提高各种下游任务的性能。
Jan, 2023
本文提出了一种名为SDS-Complete的方法,该方法利用预训练的文本到图像扩散模型,借助给定不完整点云对象的文本语义获取完整的表面表示,其可以有效地重建通过现实世界深度传感器和LiDAR扫描仪捕获的不完整扫描物体,相较于当前方法平均减少了50%的Chamfer损失。
Jun, 2023
提出了一种通过语言辅助的方法来学习点云特征,使用LMMs文本丰富语义概念,通过基于统计的显著特征选择实现去冗余和降低特征维度,进一步分析了文本对点云的对比训练的影响,实验证实所提出的方法在三维语义分割、三维物体检测和三维场景分类任务中学习到了有意义的点云特征,并获得了最先进或可比较的性能。
Dec, 2023
我们提出了一个基于提示的点云补全框架,名为P2M2-Net,用于更可控和多样化的形状补全。通过使用Transformer模型,我们的框架能够高效地融合多模态特征并按照提示指导生成多样化的结果。我们在一个新的大规模PartNet-Prompt数据集上训练P2M2-Net,并在两个具有挑战性的形状补全基准上进行了广泛实验。定量和定性结果表明了引入提示进行更可控的部分感知点云补全和生成的有效性。
Dec, 2023
提出GS-CLIP方法将3D高斯粒化引入多模态预训练,以增强3D表示,并通过预训练的视觉-语言模型和3D编码器对3D高斯粒化进行优化,实现全局显式特征的提取和融合。实验证明,GS-CLIP显著提高了最新研究成果,超越了先前最好的结果。
Feb, 2024
我们提出了一种新颖的双通道模态融合网络(DMF-Net),用于图像引导的点云完成任务,在粗到精的方式下,通过将图像和部分点云一起输入网络进行模态融合,从而实现点云的恢复和补全,实验结果表明DMF-Net在ShapeNet-ViPC数据集上的性能优于现有的单模态和多模态点云完成方法。
Jun, 2024
为了进一步推动多模态点云补全的发展,我们贡献了一个大规模多模态点云补全基准ModelNet-MPC,它包含了近40个类别的近400,000对高质量点云和渲染图像。除了完全监督的点云补全任务,ModelNet-MPC还提出了两个附加任务,包括去噪补全和零样本学习补全,以模拟现实世界场景并验证当前方法对噪声和类别之间的迁移能力的稳健性。同时,考虑到现有的多模态补全流水线通常采用单向融合机制并忽略了图像模态中所包含的形状先验,我们在本文中提出了一个双模态特征交互网络(DuInNet)。DuInNet在点云和图像之间迭代地相互交互特征,以学习形状的几何和纹理特征。为了适应完全监督、去噪和零样本学习等特定任务,提出了一种自适应的点生成器,用不同权重为这两个模态生成完整的点云。在ShapeNet-ViPC和ModelNet-MPC基准测试上进行的大量实验证明,DuInNet在所有补全任务中优于现有方法,具有优越性、稳健性和迁移能力。代码和数据集即将发布。
Jul, 2024