场景三部曲:论人类场景素描及其与照片和文本的互补性
本文提出了一种自监督方法用于场景素描生成,该方法不依赖于任何现有的场景素描,可将单对象的素描转化为场景素描。通过引入矢量素描字幕和素描语义扩展方法,并设计一个融合多模态感知约束的生成网络,适用于零样本图像到素描的下游任务,实验证明其具有最先进的性能。最后,通过我们提出的素描生成方法,我们贡献了一个以场景素描为中心的大规模数据集,包括高度语义一致的 “文本 - 素描 - 图像” 三元组,该数据集可以显著提升现有模型在基于素描的图像检索和素描控制图像合成任务中的能力。我们将公开提供数据集和代码。
May, 2024
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022
本文提出了一种新的基于素描图的自然照片综合方法,采用无监督学习,结合标准化模块提取参考照片、在训练中提供假素描照片对,以及两种主要成分:全局场景结构和低级视觉风格的组合。实验结果表明,该方法可以生成具有高保真度的真实感照片,并且在相应场景素描的编辑方面具有更高的细节度,优于其他基于照片综合的方法。
Sep, 2022
本研究提出了一种名为 COINS 的生成模型,可以在高级语义规格的控制下合成 3D 场景内与虚拟人之间的自然互动,该模型通过编码统一的潜在空间和位置编码来嵌入互动语义,并可以自然地合成多个对象之间的组合互动,实验结果表明该模型可以合成具有语义控制的真实人 - 场景交互。
Jul, 2022
本研究提出了一种有效的方法,通过结合图像、口头和文本叙述三种同时模态的特征来训练唯一的嵌入表示,实验证明加入人工生成的文本转录可以提升训练程序,在任务如图像和语音的检索中取得了更好的嵌入表示的性能。
Jun, 2020
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点,达到 FS-COCO 草图数据集上 85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023
本文提出了一个新的大规模数据集 WikiScenes 作为图像、文本和 3D 几何的多模态推理测试平台,利用 3D 几何提供的强约束将语义概念与图像像素和 3D 点联系起来,展示了 WikiScenes 在学习语义概念上的效用。
Aug, 2021
本文首次研究了无监督的手绘草图到照片的合成,提出了一种两阶段翻译任务的方法,添加自监督去噪目标和注意力模块以处理抽象和风格差异,生成的图片忠实于草图且逼真的,并可实现基于草图的图像检索和捕捉人类视觉感知。
Sep, 2019
我们创建了一个名为 SketchyScene 的数据集,旨在推进对物体和场景级别的素描理解的研究,该数据集通过一种新颖且精心设计的众包流程创建,包含大约 29,000 个场景级别的素描、7,000 多对场景模板和照片以及 11,000 多个物体的素描,并且数据集易于扩展和修改,可以训练新的计算模型以进行场景素描的语义分割等多种应用。
Aug, 2018
这篇论文提出了通过合成模型和文本来改进细粒度图像检索的方法,创新性地将素描和文本结合起来,从而实现了以往无法实现的精确检索,同时提供了解决各种实际场景的解决方案。
Mar, 2024