渲染器是优秀的零样本表示学习器:探索扩散潜变量用于度量学习
探讨了利用几何约束来学习视角不变、几何感知表达,通过对RGB-D数据进行对比度学习,实现从3D先验信息到2D表达的迁移,并在语义分割、实例分割、室内物体检测中实现了显著提升。
Apr, 2021
研究了从黑盒生成模型而不是数据直接学习通用视觉表达式的设置,通过该生成器的样本输出训练,比较了几种可应用于该设置的表征学习方法,使用生成器的潜空间来生成相同语义内容的多个“视图”,表明多视图数据可以自然地用于识别正面对和负面对。
Jun, 2021
Laser-NV 是一种基于集合型潜在变量模型的生成模型,通过几个视角进行快速前向推理,同时结合几何分析的注意机制生成一般三维物体的高保真且一致性良好的图像。
Jan, 2023
本文研究了潜在扩散模型在产生逼真图像时的内在机制,通过使用线性探针发现,LDM的内部激活编码了简单场景的几何和显著对象/背景区别的线性表示,并且这些表示出现在去噪处理的早期阶段,对LDM图像合成具有因果作用,并可用于简单的高级编辑。
Jun, 2023
Vermouth是一个简单而有效的框架,由预训练的稳定扩散(SD)模型、能够集成分层表示的统一头部(U-head)和提供鉴别先验的调整专家构成,通过广泛的比较评估,在零样本基于草图的图像检索(ZS-SBIR)、少样本分类和开放词汇语义分割任务上展示了我们方法的效果,展示了扩散模型作为强大学习器的潜力,证明了它们在提供信息丰富和鲁棒的视觉表示方面的重要性。
Jan, 2024
扩散模型通过生成具有合适阴影的不寻常的图像,如宇航员在月球上骑马,显示了具有组合泛化能力,但模型是如何做到的?我们在条件DDPM上进行了实验,学习生成以指定的x和y位置为中心的2D球形高斯隆起。我们的结果表明,有意义的语义潜在表示的出现是实现高性能的关键。在学习过程中,模型经历了三个不同阶段的潜在表示:(阶段A)没有潜在结构,(阶段B)二维无序状态流形,(阶段C)二维有序流形。与每个阶段相对应,我们确定了定性不同的生成行为:1)生成多个凸起,2)在不准确的x和y位置生成一个凸起,3)在正确的x和y位置生成一个凸起。此外,我们还展示了即使在不平衡的数据集中,x和y特征(位置)以倾斜的频率表示,x和y的学习过程仍然是耦合的,而不是因式分解的,这表明简单的香草味扩散模型不能学习将x和y的定位因式分解为独立的1D任务的高效表示法。这些发现表明,未来的研究需要找到归纳偏差,将生成模型推向发现和利用其输入中可因式分解独立结构的更多数据高效制度所需的地步。
Feb, 2024
通过在预训练的3D对象表示的潜在空间上优化可微分的渲染管道,我们提出将RGB摄像机中的3D多目标跟踪重新构建为逆渲染问题,通过优化图像损失在生成的潜空间上进行,其固有地解藕形状和外观属性。我们验证了我们方法的泛化和扩展能力,通过仅从合成数据学习生成先验,并在nuScenes和Waymo数据集上评估基于摄像机的3D跟踪。
Apr, 2024
不同生成图像模型是否暗含相似的潜在表示?我们通过测量四种不同模型(VAEs、GANs、NFs和DMs)的潜在空间相似性来进行调查。我们的方法是使用冻结的潜在空间之间的线性映射,将任意配对的编码器和解码器连接起来,并测量生成的“连接”模型的基于输出和基于探针的度量。我们的主要发现是,性能良好的模型之间的潜在空间线性映射保留了大部分视觉信息,即使潜在空间大小不同;对于CelebA模型来说,性别是最相似的属性。最后,我们展示了NF上的实验结果表明,潜在空间表示在训练早期就会收敛。
Jul, 2024