CCVS: 上下文感知可控视频合成

Jul, 2021

CCVS: Context-aware Controllable Video Synthesis

Guillaume Le Moing, Jean Ponce, Cordelia Schmid

TL;DR本文提出了一种自监督学习方法，用于从旧视频剪辑中合成新视频剪辑，并介绍了多个新的关键元素，以改善其空间分辨率和逼真程度。通过对时间连续性的上下文信息和对精细控制的辅助信息进行综合利用，该方法的预测模型在自编码器的潜在空间和图像空间中进行双自回归，以提高其输出的逼真程度，并通过可学习的光流模块来实现时空一致性。同时，插入于编码器和潜在空间预测模块之间的量化器和插入于预测模块和解码器之间的其逆操作提供了额外的灵活性。实验结果表明，该方法在多个任务和标准基准测试上的定性和定量结果都非常好。

Abstract

This presentation introduces a self-supervised learning approach to the synthesis of new video clips from old ones, with several new key elements for improved spatial resolution and realism: It conditions the synthesis process on contextual information for →

self-supervised learning video synthesis temporal continuity spatio-temporal consistency multimodal ancillary information

发现论文，激发创造

利用语义耦合的 VQ 模型进行语义图像合成

通过与向量量化模型预训练的条件式合成潜空间，联合学习条件潜空间和图像潜空间，进一步提高自回归模型的建模能力，并在多个图像数据集上验证其能有效改进语义图像合成性能。

Sep, 2022

视频帧插值的上下文感知综合

本文提出了一种基于上下文感知的合成方法，利用预先训练好的神经网络提取上下文信息，使用最先进的光流算法估计双向流，并使用上下文信息插值出高质量中间帧。

Mar, 2018

通过上下文和运动解耦实现自监督视频表示学习

本文提出了一种自监督学习的方法，通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息，并同时设计了两种预设任务，即上下文匹配任务和动态预测任务，以提高视频表示的质量和行动识别准确性。

Apr, 2021

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

基于因果关系的上下文预测学习图像压缩

本文提出了一种基于序列解码过程的因果上下文熵预测的概念，以捕捉图像压缩的全局相关性和跨通道关系，同时，采用新的独立注意力模块构建更强的转换网络，实验结果表明，该系统在 Kodak 数据集上的表现优于标准 VVC/H.266 编解码器，达到了最先进的码率失真性能。

Nov, 2020

跨架构自监督视频表示学习

本文提出一种新的跨架构对比学习（CACL）框架，用于自监督视频表示学习，使用 3D CNN 和视频变换器并行生成对比学习中多样化的正对，同时引入了一个具有明确视频序列编辑距离预测能力的时间自监督学习模块，用于学习强大的时序性表示，在 UCF101 和 HMDB51 数据集上表现卓越，超越 VideoMoCo 和 MoCo + BE 等现有技术。

May, 2022

利用整体属性控制的概率视频生成

提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架，通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量，能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。

Mar, 2018

深度编码器 - 解码器模型用于无监督学习可控语音合成

本文针对非文字语音变化很少被注释的情况，研究了无监督学习控制统计语音合成的方法，包括将无监督训练试探法解释为某些自编码器模型中的变分推理等方式。研究发现，这些新的概率诠释具有重要含义，并将几种方法应用于情感语音合成的音频建模，发现无监督学习的表达控制方法（无需情感标签）在很多方面可以与之前的最佳监督方案匹配或超越之。

Jul, 2018

视频到视频合成

本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法，可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频，此方法成功优化了视频生成技术的最新发展状态，并被应用于未来视频预测。

Aug, 2018

上下文编码器：通过修补学习特征

本研究提出了一种无监督的视觉特征学习方法，称为 Context Encoders，利用卷积神经网络通过上下文预测像素来对图像进行重构，该方法通过重构加对抗性损失双重学习获得更加清晰的结果，这种学习到的特征在分类、检测和分割等任务中表现出了很好的效果。

Apr, 2016