通过表示扭曲的方法实现语义视频卷积神经网络

ICCVAug, 2017

通过表示扭曲的方法实现语义视频卷积神经网络

Semantic Video CNNs through Representation Warping

Raghudeep Gadde, Varun Jampani, Peter V. Gehler

TL;DR本文提出了一种将用于静态图像的 CNN 模型转换为用于视频数据的 CNN 模型的技术，利用名为 NetWarp 的模块，通过邻帧的光流在时间上进行网络表示的扭曲，同时将光流方法与不同的 CNN 架构结合以实现改进，最终在 CamVid 和 Cityscapes 数据集上实现了最新的最佳效果。

Abstract

In this work, we propose a technique to convert cnn models for semantic segmentation of static images into CNNs for video data. We describe a warping method that can be used to augment existing architectures with

cnn semantic segmentation video data netwarp optical flow

发现论文，激发创造

利用对象级先验学习语义对应关系

研究使用二进制前景掩码并经过合成几何变形的图像来训练卷积神经网络（CNN），以解决语义对应问题，提出了一种新的 CNN 体系结构（称为 SFNet），其实现了这一想法，并展示了在标准基准测试中明显优于现有技术的实验结果。

Nov, 2019

SFNet: 学习物体感知的语义对应性

通过使用二进制前景蒙版和几何变形训练卷积神经网络（CNN）实现语义对应的密集流场，提出了一种新的 CNN 框架 SFNet，并在各项基准测试中表现出比现有方案更好的泛化性能。

Apr, 2019

PWC-Net：使用金字塔、光流矫正和代价体积的卷积神经网络

我们提出了一种紧凑但有效的卷积神经网络模型，用于光流预测，名为 PWC-Net，其通过金字塔处理、扭曲变换和成本体积使用学习功能进行设计，该模型在 MPI Sintel 最终传递和 KITTI 2015 基准测试上优于所有发表的光流方法，同时比最近的 FlowNet2 模型小 17 倍且易于训练。

Sep, 2017

DwNet: 密集基于光流场的人体姿态引导视频生成网络

该研究报告介绍了一种基于 GAN 的架构 DwNet，利用密集的姿态引导表示和改进的过程，将源图像中所需的主体外观，以纹理的形式，从一种姿势变换成所需的姿势，进而生成具有时序一致性的高分辨率人像视频，并在两个基准数据集上展现出先进的性能表现

Oct, 2019

基于 GAN 的动画到插画视频翻译的特征变形技术

本研究旨在探索将动画电影风格化为原始插图风格的视频到视频翻译新领域，提出了利用无序图像集合进行视频风格化的挑战性任务，为了确保视频风格转换的时间一致性，本论文提出了一种新的生成器网络，并在三个数据集上展示了其有效性。

Oct, 2023

模型重要，训练同样重要：一项用于光流估计的 CNN 实证研究

通过简单和成熟的原则，包括金字塔处理，扭曲和成本体积处理，我们设计了一种紧凑但有效的 CNN 模型 PWC-Net 进行光流估计，并通过相同的训练过程对 FlowNetC 进行重新训练，提高了 56% 的准确性，并进一步改进了训练过程，将 PWC-Net 在 Sintel 上的准确性提高了 10％，在 KITTI 2012 和 2015 上提高了 20％，该模型在 Robust Vision Challenge 的光流比赛中获胜。

Sep, 2018

深度神经网络和双向动态时间扭曲算法的半监督三维视频信息检索

该论文提出了一种新颖的半监督深度学习算法，用于基于视觉内容检索相似的 2D 和 3D 视频。该算法采用深度卷积和递归神经网络与动态时间扭曲作为相似性度量，能够处理大规模视频数据集，并根据图形帧和内容检索与给定查询视频片段最相关的视频。该方法在包括 CC_WEB_VIDEO、Youtube-8m、S3DIS 和 Synthia 等多个公共数据集上进行了测试，与最先进的方法相比表现良好。该算法有效地解决了视频检索任务，并优于基准深度学习模型。

Sep, 2023

评估两流 CNN 用于视频分类

该论文以深度学习为基础，通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究，并在两个流行的视频分类基准测试中获得了竞争力极强的结果。

Apr, 2015

视频帧插值的上下文感知综合

本文提出了一种基于上下文感知的合成方法，利用预先训练好的神经网络提取上下文信息，使用最先进的光流算法估计双向流，并使用上下文信息插值出高质量中间帧。

Mar, 2018

通过变形实现动画：一种高质量面部表情动画的高效方法

提出了一种名为 ATW 的新型框架，其中包含一个新型两阶段神经网络生成器和一个称为 Animating Through Warping（ATW）的新型后处理模块，它具有高效的高分辨率面部动画生成能力。

Aug, 2020