使用光流估计合成逼真的场景文本视频
通过应用光流来指导面部图像生成,增强帧与帧之间的连续性和语义一致性,这篇论文提出了一种名为 “OpFlowTalker” 的新方法,利用音频输入预测的光流变化而非直接预测图像,平滑图像的过渡并使其与语义内容相吻合,通过序列融合技术替代单帧的独立生成,同时引入光流同步模块来调节全脸和唇部运动,优化视觉合成的区域动态,并引入了一种可以准确测量合成视频中唇读能力的 “视觉文本一致性得分(VTCS)”,广泛的实证证据验证了我们的方法的有效性。
May, 2024
本文介绍了一种从真实图片中快速生成大量准确的光流标注的框架,该框架利用单目深度估计网络构建可能的点云,通过虚拟相机运动合成新视角和对应的光流场,实现对现有数据的有效利用,并提高了视觉光流网络在真实场景中的泛化和特化性能。
Apr, 2021
提出了一种基于文本引导的视频风格化方法,通过同步多帧扩散框架来维持视觉细节和时间一致性,实现了视觉细节和时间一致性的生成高质量和多样性的结果。
Nov, 2023
使用光流作为 motion 信息的 FTGAN 模型,包含 FlowGAN 和 TextureGAN,实现了在无监督学习的情况下生成更真实的视频,可帮助提高动作分类的性能。
Nov, 2017
该研究提出了一种名为 Text Flow 的统一场景文本检测系统,该系统使用了最小成本(min-cost)流网络模型,通过将字符候选检测、文本行提取和文本行验证三个步骤集成到一个过程中,从而有效地解决了误差累积问题,并在 ICDAR2011,ICDAR2013 和多语种数据集上都实现了比现有技术更高的检测精度。
Apr, 2016
Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.
Nov, 2023
这篇论文提出了一种一致的视频到视频合成框架,通过同时利用源视频中的空间条件和时间光流线索,处理流程中的不完美估计并实现了与现有 I2I 模型的无缝集成、高效和高质量视频合成。
Dec, 2023
本研究提出了一种基于任务的流程(TOFlow),该方法采用自我监督的方式以任务特定的方式学习运动表示,并在视频插值、视频去噪 / 去块以及视频超分辨率等三个视频处理任务上超越了传统的光流方法。
Nov, 2017
最近对于密集光流的研究取得了显著进展,主要以需要大量标记数据的监督学习方式为基础。然而,由于获取大规模真实世界数据的昂贵性,通常会利用计算机图形来构建数据集。本文展示了在光流数据集中所需的特征是相当简单的,并提出了一种更简单的合成数据生成方法,通过基本操作的组合实现了一定水平的真实感。通过对 2D 运动数据集的系统分析,我们进一步介绍了生成合成数据集最简单但至关重要的因素。此外,我们提出了一种新的方法,在监督学习中利用遮挡掩模,并观察到抑制遮挡区域梯度在课程学习意义上作为强大的初始状态。在我们的数据集上进行了 RAF 网络的初始训练,结果在 MPI Sintel 和 KITTI 2015 这两个最具挑战性的在线基准测试中超过了原始的 RAF 网络。
Aug, 2023
AutoFlow 是一个简单而有效的方法,通过可学习超参数控制每一层的运动、形状和外观,优化模型在目标数据集上的表现,可以渲染用于光流训练的合成数据,并在 PWC-Net 和 RAFT 的预训练中达到最先进的精度。
Apr, 2021