May, 2024

SketchTriplet: 自监督剧情化的素描 - 文本 - 图像三元组生成

TL;DR本文提出了一种自监督方法用于场景素描生成,该方法不依赖于任何现有的场景素描,可将单对象的素描转化为场景素描。通过引入矢量素描字幕和素描语义扩展方法,并设计一个融合多模态感知约束的生成网络,适用于零样本图像到素描的下游任务,实验证明其具有最先进的性能。最后,通过我们提出的素描生成方法,我们贡献了一个以场景素描为中心的大规模数据集,包括高度语义一致的 “文本 - 素描 - 图像” 三元组,该数据集可以显著提升现有模型在基于素描的图像检索和素描控制图像合成任务中的能力。我们将公开提供数据集和代码。