- 多源潜变扩散模型的视频编辑
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。
- RT-GAN:用于在基于帧的领域转换方法中增加轻量级时间一致性的循环时序生成对抗网络
通过 RT-GAN(循环时间 GAN)的轻量级可调的时间参数,为单帧方法添加时间一致性,将培训需求降低了 5 倍,从而在内窥镜视频的开发中展示了其有效性,包括肠镜检查中忽略表面的构壁褶皱分割和逼真的肠镜模拟器视频生成。
- 通过 Transformer 实现的简单文本到视频模型
我们提出了一个基于 Transformer 的通用简单文本到视频模型,将文本和视频编码到相同的隐藏空间,使用 Transformer 捕捉时间一致性并生成文本或图像,通过 U-Net 从噪音版本重构图像,增加图像中的噪音级别,使用 U-Ne - VideoDirectorGPT: 基于 LLM 引导的一致多场景视频生成
我们提出了 VideoDirectorGPT,这是一个使用 LLMs 知识的生成一致多场景视频的新框架,并通过实验展示了其在布局和运动控制方面的显著改进,同时在单场景和多场景视频生成中实现了场景的视觉一致性。
- ICCVTCOVIS:时序一致性在线视频实例分割
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
- 评估动态主题模型
本研究提出了一种用于动态主题模型中定量评估主题演变的新型评估方法,分析了每个主题在时间上的质量变化,并将主题质量与模型的时间一致性相结合。通过对合成数据和现有动态主题模型数据的应用以及人工评估,验证了所提出的评估方法的实用性。研究结果可用于 - 图形背景对比多元时间序列分类
我们提出了一种名为 Graph Contextual Contrasting (GCC) 的方法,用于确保多元时间序列数据中的空间一致性和时间一致性,并在各种 MTS 分类任务中取得了最先进的性能。
- ICCV三维隐式运输器用于时态一致的关键点发现
采用关键点为基础的表征在各种视觉和机器人任务中证明了优势。然而,现有的二维和三维关键点检测方法主要依赖几何一致性实现空间对齐,忽视了时间一致性。为了解决这个问题,介绍了用于二维数据的传输器方法,从源帧重构目标帧以包含空间和时间信息。然而,将 - 循环去噪:用于文本到视频生成的迭代式去噪
通过复用和扩散的框架 VidRD,使用潜在扩散模型(LDM)和自编码器实现文本到视频生成,获得了良好的定量和定性结果。
- MM视频外绘的分层掩码三维扩散模型
视频外延的研究中,我们引入了一种基于遮罩的三维扩散模型,在保持填充区域的时间连续性方面,通过使用遮罩建模技术训练模型,利用多个引导帧连接多个视频剪辑推理结果,确保了时间连续性,并减少相邻帧之间的抖动。另外,我们通过交叉注意力,以全局帧为提示 - MagicProp: 基于扩散和运动感知的视频编辑方法
MagicProp 提出了一个名为 MagicProp 的新框架,将视频编辑过程分解为外观编辑和基于运动的外观传播两个阶段,通过图像编辑技术对视频内容和样式进行修改,并使用自回归渲染方法生成其余帧,以实现时序一致性。通过结合图像编辑技术的灵 - VideoGen:一种参考引导的潜在扩散方法用于高清文本到视频生成
使用参考引导的潜在扩散方法,VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法,通过将文本转换为视频生成。
- 时间不会欺骗:稠密图像特征的自监督时间调整
本研究提出了一种名为时间调谐的方法,通过在无标签视频上使用一种新颖的自监督时序对齐聚类损失函数,从而提高视频和图像的表示质量,进而改善了现有最先进方法在无监督语义分割方面的效果。我们相信这种方法为进一步利用丰富的视频资源进行自监督学习的规模 - ICCVLAN-HDR: 基于亮度的高动态范围视频重建的对齐网络
提出一种端到端的 HDR 视频合成框架,使用 HDR 对齐网络进行低动态范围(LDR)帧之间的运动补偿,并在特征空间中融合对齐的特征生成 HDR 帧,避免了基于像素域光流算法的流估计误差,同时通过引入时域损失来增强时序一致性。实验证明,该方 - EVE: 基于深度图引导和时序一致性约束的高效零样本基于文本的视频编辑
通过深度图和时序一致性约束,提出了一种强大且高效的零样本视频编辑方法 EVE,能够以可承受的计算和时间成本派生出令人满意的视频编辑结果,并构建了新的基准 ZVE-50 数据集以促进未来研究。
- MeDM:基于时间对应指导的图像扩散模型的视频到视频翻译
本研究介绍了一种高效有效的方法,MeDM,利用预训练的图像扩散模型进行视频到视频的翻译,保持一致的时间流。该提出的框架可以从场景位置信息(如常规 G 缓冲区)渲染视频,或对在真实场景中捕获的视频进行文本引导编辑。我们采用显式光流构建了一种实 - 使用图像扩散模型编辑具有时间一致性的视频
通过建立一个优雅而高效的 TCVE(Temporal-Consistent Video Editing)方法,本研究在大规模文本到图像(T2I)扩散模型的基础上,解决了文本引导视频编辑中的时间不连贯问题,取得了视频时序一致性和编辑能力方面的 - 基于直方图引导的带有时空连接的视频着色结构
基于直方图引导的视频上色方法 ST-HVC 通过整合直方图和光流特征以及设计 U-shape 网络,实现了在两个视频数据集中 在定量和定性方面都具有优异性能的结果。
- InFusion:用于多概念零样本文本视频编辑的注入和注意力融合
使用 InFusion 框架,基于大型预训练图像扩散模型进行零样例基于文本的视频编辑,以实现丰富的概念编辑、时间一致性和连贯性。
- ICCV神经视频深度稳定器
本研究提出了一种名为神经视频深度稳定器的插拔式深度图像处理框架及其所需的大规模数据集 —— 野外视频深度数据集,该方法通过实现视频中深度的稳定,进一步提高了其精度和效率,具有较高的实际应用价值。