使用语义理解和协同学习生成个性化的Cinemagraphs

Aug, 2017

使用语义理解和协同学习生成个性化的Cinemagraphs

Personalized Cinemagraphs using Semantic Understanding and Collaborative Learning

Tae-Hyun Oh, Kyungdon Joo, Neel Joshi, Baoyuan Wang, In So Kweon...

TL;DR本研究提出了一种使用物体识别和语义分割作为优化方法的新技术，从视频中自动创建艺术性和语义上有意义的cinemagraphs，并通过多个实验和用户研究证明了该方法的有效性。

Abstract

cinemagraphs are a compelling way to convey dynamic aspects of a scene. In these media, dynamic and still elements are juxtaposed to create an artistic and narrative experience. Creating a high-quality, aesthetically pleasing cinemagraph requires isolating objects in a semantically mea

发现论文，激发创造

SemanticPaint：一个用于交互式分割三维场景的框架

本文介绍了SemanticPaint的实时开源实现，它能够实现几何重建、对象类别分割和3D场景学习；用户可以在佩戴深度相机和虚拟现实头戴设备的情况下，与真实场景进行物理交互并为场景中的对象分配标签，使用在线随机森林机器学习算法对先前未见过的场景部分进行预测，整个过程在实时运行中实现。

Oct, 2015

SketchyScene：富注释场景草图

我们创建了一个名为SketchyScene的数据集，旨在推进对物体和场景级别的素描理解的研究，该数据集通过一种新颖且精心设计的众包流程创建，包含大约29,000个场景级别的素描、7,000多对场景模板和照片以及11,000多个物体的素描，并且数据集易于扩展和修改，可以训练新的计算模型以进行场景素描的语义分割等多种应用。

Aug, 2018

Art2Real：通过语义感知的图像翻译展示艺术品的真实面貌

通过语义感知的计算机视觉技术，将艺术作品转化为照片般写实的图像，降低了艺术数据与真实数据的视觉差距，并取得了分类、检测和分割任务的表现优化。

Nov, 2018

场景图像生成中规范表示的学习

通过学习数据中的规范图形表征，我们提出了一种新模型，以改进复杂视觉场景的图像生成，并在Visual Genome、COCO和CLEVR三个基准测试上展示了模型的改进性能。

Dec, 2019

一种多模态电影场景分割的从局部到全局的方法

为了对电影进行语义理解，提出了一种局部到全局的场景分割框架，其中包含来自三个级别的多模态信息。通过预先训练MovieScenes数据集，该框架能够从长片的分层时间结构中提取复杂语义，提供自上而下的场景分割指导，并在实验中取得了高精度的场景分割表现。

Apr, 2020

草图图像主旨：仿人分层场景图生成

介绍了一种新的场景图生成方法，该方法利用人类对图像给出主要对象和关键关系的认知习惯构建一个基于层次结构的人类模拟分层实体树，利用Hybrid-LSTM对树进行解析来生成场景图，并且设计了一个关系排序模块，动态调整场景图中的关键关系的排序来提升图像的下游任务表现。

Jul, 2020

场景图的全面调查：生成与应用

本文对当前场景图研究进行了全面的调查，总结了场景图的定义、生成方法、应用及现有数据集，并对未来发展提出了一些见解。

Mar, 2021

从文本中合成艺术电影化图像

我们介绍了一种全自动的艺术电影画面生成方法，通过从文本描述中创建电影画面，尤其是在提示中涉及想象元素和艺术风格时，具有挑战性，因为这些图像的语义和动作的解释具有复杂性。

Jul, 2023

开放词汇语义场景素描理解

我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器，其产生了一个语义感知的特征空间，并通过对语义草图分割任务的性能进行评估。为了训练我们的模型，我们仅依赖于具有简要标题的位图草图的可用性，并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化，我们建立在预先训练的CLIP模型上的视觉变换编码器的基础上。我们冻结文本编码器，并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计，实现了高效的语义解耦：第一级确保了整体场景草图编码，第二级专注于个别类别。然后，在层次结构的第二级中，我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注CLIP像素分割结果的37个点，达到FS-COCO草图数据集上85.5％的准确率。最后，我们进行了用户研究，以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。

Dec, 2023

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024