SketchTriplet: 自监督剧情化的素描 - 文本 - 图像三元组生成

May, 2024

SketchTriplet: 自监督剧情化的素描 - 文本 - 图像三元组生成

SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation

Zhenbei Wu, Qiang Wang, Jie Yang

TL;DR本文提出了一种自监督方法用于场景素描生成，该方法不依赖于任何现有的场景素描，可将单对象的素描转化为场景素描。通过引入矢量素描字幕和素描语义扩展方法，并设计一个融合多模态感知约束的生成网络，适用于零样本图像到素描的下游任务，实验证明其具有最先进的性能。最后，通过我们提出的素描生成方法，我们贡献了一个以场景素描为中心的大规模数据集，包括高度语义一致的 “文本 - 素描 - 图像” 三元组，该数据集可以显著提升现有模型在基于素描的图像检索和素描控制图像合成任务中的能力。我们将公开提供数据集和代码。

Abstract

The scarcity of free-hand sketch presents a challenging problem. Despite the emergence of some large-scale sketch datasets, these datasets primarily consist of sketches at the single-object level. There continues

sketch scene sketch generation self-supervised method vector sketch captioning multi-modal perceptual constraints

发现论文，激发创造

无监督草图到照片的合成

本文首次研究了无监督的手绘草图到照片的合成，提出了一种两阶段翻译任务的方法，添加自监督去噪目标和注意力模块以处理抽象和风格差异，生成的图片忠实于草图且逼真的，并可实现基于草图的图像检索和捕捉人类视觉感知。

Sep, 2019

场景三部曲：论人类场景素描及其与照片和文本的互补性

本文将场景理解扩展到包括人体素描，提出了一种基于灵活联合嵌入的场景表示，支持多种模态和任务，可适应多个场景相关任务。

Apr, 2022

自主深度学习手绘图像表征

本研究解决了手绘图像自监督表征学习的问题，提出了一种针对手绘图像的特定预处理任务和文本卷积网络的双分支架构，通过在百万级手绘图像数据集上进行的两个应用方法来证明该方法明显优于现有的无监督表征学习方法，并显著缩小了与监督表征学习之间的性能差距。

Feb, 2020

自监督的草图到图像合成

通过自监督学习，提出了一个基于示例的草图到图像的生成模型，其中包括了使用无需配对的数据生成草图的方法，以及使用自编码器和对抗网络分别实现内容一致性和风格一致性，并在高分辨率图像生成上取得了最新的表现。

Dec, 2020

无监督场景素描到照片的合成

本文提出了一种新的基于素描图的自然照片综合方法，采用无监督学习，结合标准化模块提取参考照片、在训练中提供假素描照片对，以及两种主要成分：全局场景结构和低级视觉风格的组合。实验结果表明，该方法可以生成具有高保真度的真实感照片，并且在相应场景素描的编辑方面具有更高的细节度，优于其他基于照片综合的方法。

Sep, 2022

SketchyScene：富注释场景草图

我们创建了一个名为 SketchyScene 的数据集，旨在推进对物体和场景级别的素描理解的研究，该数据集通过一种新颖且精心设计的众包流程创建，包含大约 29,000 个场景级别的素描、7,000 多对场景模板和照片以及 11,000 多个物体的素描，并且数据集易于扩展和修改，可以训练新的计算模型以进行场景素描的语义分割等多种应用。

Aug, 2018

SketchyCOCO: 由自由形手绘场景草图生成图像

本文提出了一种通过免费手绘的草图实现控制式图像生成的方法，使用由属性向量桥接的生成对抗网络进行高质量的对象级图像内容生成，在称为 SketchyCOCO 的大规模混合数据集中验证了该方法的运用和效果并证明了其生成逼真复杂的场景级图像的能力。

Mar, 2020

矢量化与光栅化：自监督学习用于草图和手写

本研究提出了两种用于自我监督特征学习的跨模态翻译预训练任务：矢量化和光栅化，这两种方法可以同时为矢量和光栅基于手绘数据进行下游分析提供编码器模块，本文参考了双重表述的手写和素描数据。实证结果表明我们的方法优于现有的单模态和多模态自我监督方法。

Mar, 2021

开放词汇语义场景素描理解

我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器，其产生了一个语义感知的特征空间，并通过对语义草图分割任务的性能进行评估。为了训练我们的模型，我们仅依赖于具有简要标题的位图草图的可用性，并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化，我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器，并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计，实现了高效的语义解耦：第一级确保了整体场景草图编码，第二级专注于个别类别。然后，在层次结构的第二级中，我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点，达到 FS-COCO 草图数据集上 85.5％的准确率。最后，我们进行了用户研究，以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。

Dec, 2023

更多的照片就是你所需要的：半监督学习用于细粒度基于草图的图像检索

本论文研究了基于细粒度手绘图像检索模型中存在的数据稀缺问题，并介绍了一种新型的半监督框架，可以利用大规模未标记的照片来提升模型表现，其中心设计是一个顺序照片到草图生成模型，并引入了鉴别器和蒸馏损失来提高数据的质量。实验证明，新的半监督模型相比现有的监督模型和具有利用未标记的照片的现有方法产生了显著的性能提升。

Mar, 2021