自动非线性视频编辑转换
本研究提出了一种基于图片样式迁移的视频样式迁移方法,使用新的初始化和适用于视频的损失函数能够生成一致和稳定的艺术风格视频序列,即使在大运动和强遮挡的情况下,该方法在质量和数量上都明显优于基线算法。
Apr, 2016
本文提出了两种计算机视觉算法对图像和视频进行风格迁移,第一种是根据Gatys算法进行能量最小化的图像风格转移技术,针对图像中的规模和遮挡等问题提出了改进,第二种是将视频风格迁移建模为一个学习问题,使用深度学习网络和新的训练程序使其在几乎实时的情况下实现任意长度的视频稳定风格转移,最后还介绍了如何将这些方法应用于360度图像和视频。
Aug, 2017
本文提出了一种基于卷积神经网络的实时视频风格转移模型ReCoNet,通过引入新的亮度变形约束和特征映射级别的时间损失,实现了既有高质量风格又能保证时间连贯性的风格迁移。实验结果表明该模型在质量和效率上均表现出色。
Jul, 2018
本文提出了一种基于深度神经网络的算法,通过将图像的语义有意义的本地区域的艺术风格转移至目标视频的本地区域,同时保持其照片般的逼真性,并通过噪声和时间损失来优化视频的语义标签和平滑转换风格,最终实现一种能够自动生成视觉媒体的风格迁移方法。
Oct, 2020
一种名为Ground-A-Video的新型基于groundings的多属性视频编辑框架,通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑,实现了无需训练的时间一致的多属性视频编辑,并在编辑准确度和帧一致性方面表现优于其他基准方法。
Oct, 2023
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
Mar, 2024
AnyV2V是一个无需训练的框架,通过使用现有的图像编辑工具和图像到视频生成模型,支持各种视频编辑任务,包括基于参考样式的转换、主题驱动编辑和身份操纵,并在性能方面超越了传统方法。
Mar, 2024
我们介绍了Videoshop,这是一种针对局部语义编辑的无需训练的视频编辑算法。Videoshop允许用户使用任何编辑软件,包括Photoshop和生成修饰,来修改第一帧,并自动将这些变化以语义、空间和时间一致的动作传播到其余的帧。与现有的仅通过不精确的文本指令进行编辑的方法不同,Videoshop允许用户添加或删除对象、在视频中进行语义变更、插入股票照片等,并对位置和外观进行精细控制。我们通过基于图像的视频编辑,并通过对编辑图像的噪声推断反演来生成视频,实现了这一目标。在2个编辑基准测试中,通过使用10个评估指标,Videoshop相对于6个基线方法获得更高质量的编辑结果。
Mar, 2024
该研究聚焦于理解主要的视频制作流程,包括六种主要的编辑组件:视频效果、动画、过渡、滤镜、贴纸和文本。该论文介绍了第一个用于视频创作的大规模数据集,探索了编辑组件的视觉表示方法,并提出了一种新的学习方法,能够更好地学习与编辑组件相关的视觉特征。研究结果表明,该方法在编辑组件的检索和识别方面表现优于其他替代解决方案,并且在过渡推荐任务上取得了最先进的结果。
Mar, 2024
通过使用预训练的图像到视频模型,我们介绍了一种新颖而通用的方法,将图像编辑工具的适用范围扩展到视频中,通过从单个帧到整个视频的传播编辑来处理全局编辑,局部编辑和适度形状变化,并且通过细粒度的注意力匹配来实现精确的调整,同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能,并证明其能够产生高质量、时间上连续的输出。
May, 2024