利用正交信息层次生成视频:光流和纹理
本文介绍了一种名为 FlowText 的视频文字合成技术,通过利用光流估计,在低成本的情况下合成大量的文本视频数据,用于训练强健的视频文字定位器。实验证明,将 TransDETR 等通用检测器与 FlowText 结合使用,可以在 ICDAR2015video 和 ICDAR2013video 等不同数据集上获得显著的结果。
May, 2023
本研究提出了一种基于任务的流程(TOFlow),该方法采用自我监督的方式以任务特定的方式学习运动表示,并在视频插值、视频去噪 / 去块以及视频超分辨率等三个视频处理任务上超越了传统的光流方法。
Nov, 2017
本文开发了一个双模 GAN 架构,采用双学习机制,明确地执行未来帧预测与视频中像素流的一致性,该模型通过新的概率运动编码器处理不同像素位置的自然运动不确定性,并使用对抗训练确保未来帧的预测及光流的预测具有真实感,实验证明该模型性能明显优于最先进的方法,具有较强的泛化能力。
Aug, 2017
本文介绍了一种从真实图片中快速生成大量准确的光流标注的框架,该框架利用单目深度估计网络构建可能的点云,通过虚拟相机运动合成新视角和对应的光流场,实现对现有数据的有效利用,并提高了视觉光流网络在真实场景中的泛化和特化性能。
Apr, 2021
通过应用光流来指导面部图像生成,增强帧与帧之间的连续性和语义一致性,这篇论文提出了一种名为 “OpFlowTalker” 的新方法,利用音频输入预测的光流变化而非直接预测图像,平滑图像的过渡并使其与语义内容相吻合,通过序列融合技术替代单帧的独立生成,同时引入光流同步模块来调节全脸和唇部运动,优化视觉合成的区域动态,并引入了一种可以准确测量合成视频中唇读能力的 “视觉文本一致性得分(VTCS)”,广泛的实证证据验证了我们的方法的有效性。
May, 2024
提出一种新的框架以实现视频语义分割和光流估计的联合训练,通过联合训练利用视频中已标记和未标记的帧,使视频语义分割和光流估计更加稳健并在相应任务中表现优异。
Nov, 2019
本文通过将高斯注意力引入光流模型,以强调表示学习过程中的局部特性并在匹配过程中强制实施运动相关性,提出了一种全新的高斯约束层(GCL)和高斯引导注意模块(GGAM)。GAFlow 网络是一个完整的模型,将这些高斯基于模块自然地融入传统的光流框架中,用于可靠的运动分析。在标准光流数据集上进行的广泛实验一致证明了所提方法在泛化能力评估和在线基准测试方面的优异性能。
Sep, 2023
无标注图像分割和定位是自主机器人学习将图像解析为个体对象的关键能力,本研究提出了一种新的损失函数,利用无标注视频中的光流信息辅助自我监督视觉转换器的特征优化,实现了无标注语义分割的优于现有技术的性能。
Jul, 2023
提出了一种简洁而高效的分层特征对齐网络 (HFAN),用于改进无监督视频对象分割 (UVOS) 中运动和外观特征的关联性,通过顺序的特征对齐模块 (FAM) 和特征适应模块 (FAT) 对外观和运动特征进行层次化处理,在 DAVIS-16 数据集上实验表明,在 J&F 平均值方面,HFAN 达到了新的最优性能,相对于最优结果提高了 3.5%。
Jul, 2022