CLIPasso: 语义感知物体草图
我们提出了一种基于优化的框架,用于绘制视频的素描,通过设置初始参数和利用语义损失和 2D 网络的一致性损失进行优化,生成具有卓越视觉抽象和时间连贯性的素描视频,为基于素描的视频编辑和视频涂鸦提供了潜在的应用。
Nov, 2023
Semantify 是一种自监督方法,利用 CLIP 语言 - 视觉基础模型的语义能力来简化对 3D 可塑模型的控制。通过随机抽样模型参数创建训练数据,并计算输出图像与一组词汇描述符之间在 CLIP 潜空间中的相似性,我们通过首先选择一小组语义有意义且脱离的描述符来表征 3DMM,然后学习一个非线性映射从这组描述符的分数到给定 3DMM 的参数系数。这个非线性映射通过训练一个无需人工干预的神经网络来定义。我们展示了在多个 3DMM 上的结果,包括身体形状模型、面部形状和表情模型以及动物形状。演示了我们的方法如何定义一个简单的滑块界面以实现直观建模,并展示了该映射如何将 3D 参数化身体形状立即适配到实际图像。
Aug, 2023
本文通过自监督学习及视觉 - 语言模型,提出了 CLIP-S4 方法,该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务,包括无监督、迁移学习和语言驱动分割,并在未知类别识别上表现出良好的性能优势。
May, 2023
本文分析了一个视觉档案,其中互动机器人艺术装置根据观众讲述的梦境生成图像,通过 CLIPdraw 深度学习模型解释和转换。结果表明四个概念分组描述和解释了 CLIP 生成的结果:清晰的概念,文本转图像,不确定和混乱以及翻译问题。最终,文章认为所提出的分组支持对神经模型的更好理解。
Jun, 2023
LBS 学习通过绘画来表示场景,而不需要素描数据集。理论上证明绘画与任意仿射变换具有等变性,因此可以保留几何信息。实验结果显示 LBS 显着改善了对象属性分类的性能,并为不同下游任务提供了丰富的几何信息。
Apr, 2023
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
本文研究了在一组图像中共同语义对象的共同分割,并使用对比式语言 - 图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络,我们引入了 CLIP 中的语义信息,并通过三个关键模块 ——i) 图像集特征对应模块,对图像集的全局一致语义信息进行编码;ii) CLIP 交互模块,利用 CLIP 提取的图像集的共同语义信息来优化骨干特征;iii) CLIP 正则化模块,引导 CLIP 朝向共同分割任务,找到最佳的 CLIP 语义并用其来正则化骨干特征 —— 以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。
Aug, 2023
我们提出了 3Dooole,能够生成描述性和视角一致的草图图像,基于一组 3D 笔画能够有效地表示 3D 结构信息并渲染视角一致的 2D 草图。
Feb, 2024
本文介绍了一种民主化的三维内容创作方法,能够通过抽象的草图精确生成三维形状,同时克服与绘画技巧相关的限制。我们引入了一种新颖的部分水平建模和对齐框架,促进了抽象建模和跨模式对应关系。利用相同的部分水平解码器,我们的方法能够无缝地扩展到草图建模,通过建立 CLIPasso 边缘地图和投影的三维部分区域之间的对应关系,消除了人类草图和三维形状配对数据集的需求。此外,我们的方法通过交叉模式的部分对齐建模产生了一种无缝的位置调整过程。在低维隐含空间中运作,我们的方法显著降低了计算需求和处理时间。
Dec, 2023
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点,达到 FS-COCO 草图数据集上 85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023