SEVA: 利用素描评估人类与机器视觉抽象之间的对齐
本文提出了第一种基于笔画级别的速写抽象模型,并通过强化学习训练了一个笔画去除策略,该模型能够用于各种速写分析任务,包括建模笔画显著性、合成具有可变抽象度的速写以及使用仅照片训练细粒度速写检索模型。
Apr, 2018
该研究探讨了使用无标签数据来改善基于素描的模型的方法,通过对 VAE 和半监督 VAE 的变化进行评估,并提出了 BYOL 的扩展来处理素描,结果表明 sketch-BYOL 的效果优于其他自监督方法,提高了已知和未知类别的检索性能。此外,我们还展示了其他任务如何受益于我们的实现。
Apr, 2022
本研究介绍一种基于草图的物体检测框架,利用基础模型(如 CLIP)和既有的草图模型(如 SBIR)之间的协作来构建高度可推广的草图和照片编码器,并设计一种训练范式来适应对于物体检测,评估结果显示该框架在零样本设置下的表现优于有监督的和弱监督的对象检测器。
Mar, 2023
我们提出了一种新颖的抽象感知的基于草图的图像检索框架,能够处理不同级别的草图抽象。通过学习抽象感知特征和粒度级别的抽象理解,我们的方法在标准的草图 - 图像检索任务以及早期检索、法医草图 - 照片匹配和风格不变检索等具有挑战性的场景中表现出色。
Mar, 2024
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点,达到 FS-COCO 草图数据集上 85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023
本文提出了一种新的零样本基于草图的图像检索 (ZS-SBIR) 场景,该场景能够有效解决 ZS-SBIR 实际应用中常见的大领域差异和大规模检索问题,提供了一个全新的 ZS-SBIR 数据集 QuickDraw-Extended,采用了一种新策略来处理领域差异,同时集成了外部语义知识以帮助语义转换,实验表明该模型在现有数据集上表现优异,并提供训练代码和数据集以供未来研究使用。
Apr, 2019
该文章首次将人类草图引入 XAI(可解释人工智能)领域,提出以草图为数据形式的可解释人工智能设计,通过识别笔画的形状、位置和顺序等内在属性,定义了首个用于草图的 XAI 任务:笔画位置倒置。研究结果不仅提供了草图解释的角度,同时还展示了该特殊设计的草图编码器最佳的草图识别精度和最小的参数数量。
Apr, 2023
本研究介绍了一种新的素描 - 照片对应基准,PSC6k,其中包含 125 个物体类别上 6250 个素描 - 照片对的 150K 注释,并提出了一种自监督方法,用于学习素描 - 照片对之间的密集对应关系,该方法在精细度和量化上优于其他基线模型,为开发实现更接近人类的不同抽象层次上的视觉图像理解的人工系统提供了有希望的道路。
Jul, 2023
本研究提出了基于手绘草图的突显性检测模型,并构建了一个基于 2D 关注机制的照片 - to - 草图生成模型,该模型可以从图像生成手绘草图,并且在定位显著物体方面表现优异。
Mar, 2023
本文提出了两种基于深度学习的神经网络架构,SkeGAN 和 VASkeGAN,用于生成矢量格式的手绘素描,并且引入了 Ske-score 度量来评估其质量。经过人类 图灵测试和 Ske-score 评估,验证了这两个模型的生成结果质量较好。
Apr, 2019