Semantify: 使用 CLIP 简化 3D 可变模型的控制

Aug, 2023

Semantify: 使用 CLIP 简化 3D 可变模型的控制

Semantify: Simplifying the Control of 3D Morphable Models using CLIP

Omer Gralnik, Guy Gafni, Ariel Shamir

TL;DRSemantify 是一种自监督方法，利用 CLIP 语言 - 视觉基础模型的语义能力来简化对 3D 可塑模型的控制。通过随机抽样模型参数创建训练数据，并计算输出图像与一组词汇描述符之间在 CLIP 潜空间中的相似性，我们通过首先选择一小组语义有意义且脱离的描述符来表征 3DMM，然后学习一个非线性映射从这组描述符的分数到给定 3DMM 的参数系数。这个非线性映射通过训练一个无需人工干预的神经网络来定义。我们展示了在多个 3DMM 上的结果，包括身体形状模型、面部形状和表情模型以及动物形状。演示了我们的方法如何定义一个简单的滑块界面以实现直观建模，并展示了该映射如何将 3D 参数化身体形状立即适配到实际图像。

Abstract

We present semantify: a self-supervised method that utilizes the semantic power of clip language-vision foundation model to simplify the c

semantify self-supervised method clip 3d morphable models neural network

发现论文，激发创造

MotionCLIP: 将人体动作生成暴露到 CLIP 空间

MotionCLIP 是一种 3D 人体运动自编码器，在 latent space 中对接 CLIP 模型，以获得无与伦比的文本到运动的能力，实现了跨域动作，编辑和抽象语言规范等功能。

Mar, 2022

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

软对齐下探索低质量多模态数据中的对齐语义

使用 Gentle-CLIP 方法，通过将半监督多模态对齐转化为流形匹配问题，利用新型的语义密度分布损失、多核最大平均差异和自监督对比损失等技术实现了更少匹配对的多模态对齐，提升了表示分布的稳定性和模态间的距离，且在蛋白质、遥感和图像语言领域的多个任务上得到了验证。

Jun, 2024

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

使用预训练的图文模型从文本生成带纹理的三维模型

基于预训练的 CLIP 模型，我们提出了一种从输入的文本提示中生成 3D 模型的零样本生成技术。通过对网格参数的优化，我们可以直接生成形状、纹理或两者，而无需进行培训。

Mar, 2022

ShapeClipper：基于几何和 CLIP 一致性的单视图图像可扩展的三维形状学习

ShapeClipper 是一种利用单视角图像实现三维物体形状重建的新方法，其中采用基于 CLIP 的形状一致性来促进物体的形状学习，并利用现成的法线作为额外的几何约束，以实现对详细表面几何结构的自下而上推理。我们在 Pix3D、Pascal3D + 和 OpenImages 等三个数据集上进行了评估，并取得了比最先进方法更好的性能。

Apr, 2023

CLIPasso: 语义感知物体草图

利用不同的几何和语义上的简化来控制抽象程度的一种物体素描方法，能够通过训练学习到草图和图像的概念，生成的草图实现多个抽象程度，同时保持主题的可识别性，基本结构和基本视觉元素。

Feb, 2022

SemanticMIM: 结合语义压缩的屏蔽图像建模用于通用视觉表示

本研究提出了一种简洁而有效的框架 SemanticMIM，以整合遮罩图像建模（MIM）和对比学习（CL）的优势，用于通用视觉表示。通过对 CL 和 MIM 进行彻底的比较分析，揭示了它们互补优势根源于压缩和重建两个不同阶段，而 SemanticMIM 利用代理架构自定义图像和掩码令牌之间的交互，以丰富的语义和位置感知性实现通用视觉表示。通过广泛的定性和定量评估，我们证明了 SemanticMIM 有效地融合了 CL 和 MIM 的优点，显著提升了性能和特征的线性可分性，并提供了引人注目的注意力响应可视化。

Jun, 2024

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

AWOL: 使用语言进行分析而无需综合

通过语言控制现有 3D 模型生成新的形状，使用潜在空间和参数空间的映射来学习，从而实现从语言生成未在训练中见过的物体的参数。通过测试，展示了在两种不同类型的参数化形状模型（四足动物和树）上的效果，并且为生成 3D 树木方法的首次使用语言驱动。

Apr, 2024