基于翻译的视频合成

Apr, 2024

Translation-based Video-to-Video Synthesis

Pratim Saha, Chengcui Zhang

TL;DR以图像转换为基础的视频合成（TVS）作为计算机视觉中的一个关键研究领域，旨在在保持时间连续性和基础特征的同时促进视频在不同领域之间的转换。本文通过全面回顾最新进展，深入研究新兴方法和机制，阐明了有效视频合成的基本概念。同时，它还探讨了它们的优点、局限性、适用应用和未来发展的潜在方向。

Abstract

translation-based video synthesis (TVS) has emerged as a vital research area in computer vision, aiming to facilitate the transformation o

translation-based video synthesis computer vision temporal domain flickering artifacts video synthesis

发现论文，激发创造

视频到视频合成

本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法，可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频，此方法成功优化了视频生成技术的最新发展状态，并被应用于未来视频预测。

Aug, 2018

可扩展视频语音合成

本文提出了一种可扩展的视频到语音综合框架，利用自我监督学习的方法，通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形，显着优于以往方法，并在 LRS3 数据集上首次展示令人满意的结果。

May, 2022

基于事件触发的视频帧合成

提出了一个高帧率的 TVFS 框架，该框架利用来自低速基于帧的传感器和高速事件传感器的混合输入数据，融合了两种不同的数据模式，并统一了各种 TVFS 任务，即插值、预测和运动去模糊，采用自动微分对梯度进行反向传播，实验结果表明与现有技术相比性能更佳。其次，采用深度学习策略增强了第一步结果，提出了一种残差 “去噪” 方法，展现了处理具有挑战性场景的能力，包括快速运动和强烈遮挡。

Feb, 2019

稳定视角合成

该研究提出了一种名为 Stable View Synthesis（SVS）的方法，利用结构从运动和多视角立体技术生成几何脚手架，并通过处理每个点的方向特征向量合成新的特征，再用卷积网络从合成的特征张量中渲染出目标图像，实现获取展示场景并进行合成视图的能力，并在三个不同世界数据集上得到了优异的性能表现。

Nov, 2020

Shortcut-V2V：基于时域冗余减少的视频到视频翻译压缩框架

Shortcut-V2V 是一个适用于视频到视频翻译的通用压缩框架，通过近似当前帧的中间特征，避免对每个相邻视频帧进行完整推理，利用 AdaBD 模块适应性地融合和变形相邻帧的特征，以实现更准确的中间特征预测，除能达到原始模型相当的性能外，还能在测试时节省 3.2-5.7 倍的计算成本和 7.8-44 倍的内存。

Aug, 2023

通过交替优化实现可解释的视频超分辨率

本文提出了一种可行的空时视频超分辨率（STVSR）框架，以解决鲁棒的视频采集中模糊、模糊和低分辨率等挑战，提供优异的定量测量和视觉质量表现。

Jul, 2022

VSTAR：用于长时间动态视频合成的生成时域护理

通过引入 GTN 概念，我们提出了一种名为 VSTAR 的方法，通过自动化生成视频摘要和时间注意力正则化技术，以改善 T2V 模型在生成长视频时的动态性，并实验证明了我们的方法在生成较长且具有视觉吸引力的视频方面的优越性。

Mar, 2024

通过同步多帧扩散实现高精细和时间一致的视频风格化

提出了一种基于文本引导的视频风格化方法，通过同步多帧扩散框架来维持视觉细节和时间一致性，实现了视觉细节和时间一致性的生成高质量和多样性的结果。

Nov, 2023

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

无配对视频到视频翻译的语义和时间一致性保持

本文研究了无配对视频到视频翻译的问题，提出了一种新的框架，包括经过精心设计的生成器和鉴别器，以及两个核心目标函数：内容保持损失和时间一致性损失。经过广泛的定性和定量评估，证明了该方法相对于先前的方法具有更优越的性能。

Aug, 2019