使用语义理解和协同学习生成个性化的Cinemagraphs
本文介绍了SemanticPaint的实时开源实现,它能够实现几何重建、对象类别分割和3D场景学习;用户可以在佩戴深度相机和虚拟现实头戴设备的情况下,与真实场景进行物理交互并为场景中的对象分配标签,使用在线随机森林机器学习算法对先前未见过的场景部分进行预测,整个过程在实时运行中实现。
Oct, 2015
我们创建了一个名为SketchyScene的数据集,旨在推进对物体和场景级别的素描理解的研究,该数据集通过一种新颖且精心设计的众包流程创建,包含大约29,000个场景级别的素描、7,000多对场景模板和照片以及11,000多个物体的素描,并且数据集易于扩展和修改,可以训练新的计算模型以进行场景素描的语义分割等多种应用。
Aug, 2018
通过语义感知的计算机视觉技术,将艺术作品转化为照片般写实的图像,降低了艺术数据与真实数据的视觉差距,并取得了分类、检测和分割任务的表现优化。
Nov, 2018
通过学习数据中的规范图形表征,我们提出了一种新模型,以改进复杂视觉场景的图像生成,并在Visual Genome、COCO和CLEVR三个基准测试上展示了模型的改进性能。
Dec, 2019
为了对电影进行语义理解,提出了一种局部到全局的场景分割框架,其中包含来自三个级别的多模态信息。通过预先训练MovieScenes数据集,该框架能够从长片的分层时间结构中提取复杂语义,提供自上而下的场景分割指导,并在实验中取得了高精度的场景分割表现。
Apr, 2020
介绍了一种新的场景图生成方法,该方法利用人类对图像给出主要对象和关键关系的认知习惯构建一个基于层次结构的人类模拟分层实体树,利用Hybrid-LSTM对树进行解析来生成场景图,并且设计了一个关系排序模块,动态调整场景图中的关键关系的排序来提升图像的下游任务表现。
Jul, 2020
我们介绍了一种全自动的艺术电影画面生成方法,通过从文本描述中创建电影画面,尤其是在提示中涉及想象元素和艺术风格时,具有挑战性,因为这些图像的语义和动作的解释具有复杂性。
Jul, 2023
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的CLIP模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注CLIP像素分割结果的37个点,达到FS-COCO草图数据集上85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023