本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法,可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频,此方法成功优化了视频生成技术的最新发展状态,并被应用于未来视频预测。
Aug, 2018
本文提出了一种可扩展的视频到语音综合框架,利用自我监督学习的方法,通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形,显着优于以往方法,并在 LRS3 数据集上首次展示令人满意的结果。
May, 2022
提出了一个高帧率的 TVFS 框架,该框架利用来自低速基于帧的传感器和高速事件传感器的混合输入数据,融合了两种不同的数据模式,并统一了各种 TVFS 任务,即插值、预测和运动去模糊,采用自动微分对梯度进行反向传播,实验结果表明与现有技术相比性能更佳。其次,采用深度学习策略增强了第一步结果,提出了一种残差 “去噪” 方法,展现了处理具有挑战性场景的能力,包括快速运动和强烈遮挡。
Feb, 2019
该研究提出了一种名为 Stable View Synthesis(SVS)的方法,利用结构从运动和多视角立体技术生成几何脚手架,并通过处理每个点的方向特征向量合成新的特征,再用卷积网络从合成的特征张量中渲染出目标图像,实现获取展示场景并进行合成视图的能力,并在三个不同世界数据集上得到了优异的性能表现。
Nov, 2020
Shortcut-V2V 是一个适用于视频到视频翻译的通用压缩框架,通过近似当前帧的中间特征,避免对每个相邻视频帧进行完整推理,利用 AdaBD 模块适应性地融合和变形相邻帧的特征,以实现更准确的中间特征预测,除能达到原始模型相当的性能外,还能在测试时节省 3.2-5.7 倍的计算成本和 7.8-44 倍的内存。
Aug, 2023
本文提出了一种可行的空时视频超分辨率(STVSR)框架,以解决鲁棒的视频采集中模糊、模糊和低分辨率等挑战,提供优异的定量测量和视觉质量表现。
Jul, 2022
通过引入 GTN 概念,我们提出了一种名为 VSTAR 的方法,通过自动化生成视频摘要和时间注意力正则化技术,以改善 T2V 模型在生成长视频时的动态性,并实验证明了我们的方法在生成较长且具有视觉吸引力的视频方面的优越性。
Mar, 2024
提出了一种基于文本引导的视频风格化方法,通过同步多帧扩散框架来维持视觉细节和时间一致性,实现了视觉细节和时间一致性的生成高质量和多样性的结果。
Nov, 2023
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
Apr, 2022
本文研究了无配对视频到视频翻译的问题,提出了一种新的框架,包括经过精心设计的生成器和鉴别器,以及两个核心目标函数:内容保持损失和时间一致性损失。经过广泛的定性和定量评估,证明了该方法相对于先前的方法具有更优越的性能。
Aug, 2019