广义分类器是否适用于人工绘制的草图?
通过从用户的自由手绘草图中综合图像分类器,我们通过训练模型回归网络将自由手绘草图空间映射到照片分类器空间,从而实现了新类别的照片分类器的综合。同时,此方法还可以用作现有照片分类器粒度的增强方法,或作为基于名称零样本学习的补充。
Apr, 2018
本文提出了第一种基于笔画级别的速写抽象模型,并通过强化学习训练了一个笔画去除策略,该模型能够用于各种速写分析任务,包括建模笔画显著性、合成具有可变抽象度的速写以及使用仅照片训练细粒度速写检索模型。
Apr, 2018
本研究介绍一种基于草图的物体检测框架,利用基础模型(如 CLIP)和既有的草图模型(如 SBIR)之间的协作来构建高度可推广的草图和照片编码器,并设计一种训练范式来适应对于物体检测,评估结果显示该框架在零样本设置下的表现优于有监督的和弱监督的对象检测器。
Mar, 2023
通过能量学习和借助 CLIP 进行跨域语义监督,我们的工作提出了一种使用单个用户素描控制 StyleGAN 图像的框架,该模型在合成数据集上的定量评估表明,与先前的方法相比,我们的方法在单次测试中性能显著提高,无需额外的训练数据和单个素描输入。
Oct, 2023
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点,达到 FS-COCO 草图数据集上 85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023
本文针对人类无限制手绘素描建模,尝试将图标式手绘转化为更几何实际的物体轮廓,并分离显著的特征细节,以实现更好的对象匹配,最终提出了一种基于无监督图像风格转移模型的深度 FG-SBIR 模型,通过定量和定性评估,证明了其在风格转移和 FG-SBIR 方面优于现有方法。
Aug, 2018
本文提出了一种名为 'Doodle It Yourself' 的基于草图的 few-shot class incremental learning 框架,利用多种模式使模型学习到更多的新概念。实验表明,相比于文本,草图更适合用作支持样本。
Mar, 2022
本文介绍了一种新型的嵌入式学习方法,利用门控融合和注意力,通过对来自不同领域的查询图像的嵌入向量进行对比学习,实现不同领域的图像数据通用表示,提高计算机视觉的表现力。
Aug, 2022
我们提出了一种新颖的抽象感知的基于草图的图像检索框架,能够处理不同级别的草图抽象。通过学习抽象感知特征和粒度级别的抽象理解,我们的方法在标准的草图 - 图像检索任务以及早期检索、法医草图 - 照片匹配和风格不变检索等具有挑战性的场景中表现出色。
Mar, 2024
本研究介绍了一种新的素描 - 照片对应基准,PSC6k,其中包含 125 个物体类别上 6250 个素描 - 照片对的 150K 注释,并提出了一种自监督方法,用于学习素描 - 照片对之间的密集对应关系,该方法在精细度和量化上优于其他基线模型,为开发实现更接近人类的不同抽象层次上的视觉图像理解的人工系统提供了有希望的道路。
Jul, 2023