Jun, 2024

CLIP 在学习 3D 中的应用

TL;DR通过两个无监督方法,我们提出了 $I2I$ 和 $(I2L)^2$,利用 CLIP 关于文本和 2D 数据的知识,计算两个 3D 样本之间的神经感知相似度,从而在没有文本描述的情况下增强对比的文本 - 图像 - 3D 对齐,通过自定义损失函数和硬负样本挖掘建立多模态对比流程,我们的方法在 3D 分类和跨模态检索基准测试方面取得了与之前方法相媲美甚至更优的性能,显著改善了图像到形状和形状到图像的检索效果。