基于变压器的视频修补中利用光流指导

ECCVJan, 2023

基于变压器的视频修补中利用光流指导

Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting

Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu

TL;DR提出 Flow-guided transformer plus (FGT++) 模型，通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式，提高视频修复的效率与效果。

Abstract

transformers have been widely used for video processing owing to the multi-head self attention (MHSA) mechanism. However, the MHSA mechani

transformers video processing self attention optical flows video inpainting

发现论文，激发创造

基于 Flow-Guided 技术的视频修复 Transformer

提出了一种基于光学流的流程引导变压器，用于高保真视频修复，通过设计新颖的流完整网络来完成损坏的光流，并使用流引导变压器来合成其余的损坏区域，通过时间和空间维度解耦变压器，以便仅集成局部相关的完成的流来控制流对每个空间变压器的影响。

Aug, 2022

流引导视频修复的端到端框架

本文提出了一种 End-to-End framework for Flow-Guided Video Inpainting (E$^2$FGVI) 方法，该方法通过三个可训练模块的设计实现了光流的流程化。实验结果表明，该方法在质量和效率上都优于现有的方法。

Apr, 2022

视频去模糊的流引导稀疏变压器

本文提出了一种新的视频去模糊框架，Flow-Guided Sparse Transformer（FGST），基于自注意力模块，使用光学流矫正模糊，并采用重复嵌入机制加强长时间依赖关系，结果表明 FGST 在 DVD 和 GOPRO 数据集上明显优于现有方法。

Jan, 2022

深度流引导视频修复

本文提出了一种新颖的视频修复方法，使用 Deep Flow Completion 网络综合光流场来引导像素填充，从而保证了视频内容的时空连贯性，并在 DAVIS 和 YouTube-VOS 数据集上取得了最优的修复质量和速度。

May, 2019

渐进式时间特征对齐网络用于视频修复

该研究提出一种基于渐进式时间特征对齐网络的视觉修复方法，通过充分利用光流信号从相邻的视频帧中提取特征来消除时空对齐中的问题，实现了对视频内容的自然修复和优化，进而在多个数据集上获得了目前的最佳表现。

Apr, 2021

视频修复的流引导扩散算法

Flow-Guided Diffusion model significantly enhances temporal consistency and inpainting quality in video inpainting by employing optical flow and a model-agnostic flow-guided latent interpolation technique.

Nov, 2023

使用流变换器进行视频帧插值

我们提出了一种视频帧插值流 Transformer 的方法，通过将运动动态从光流中引入自注意机制，使得我们的框架适用于插值具有大运动的帧，同时保持相对较低的复杂性，并通过构建多尺度架构来提高整体性能，实验证明该方法能够生成比现有方法更好视觉质量的插值帧。

Jul, 2023

ProPainter: 提升视频修复的传播和变换器

通过改进的 ProPainter 框架，结合了增强的 ProPagation 和高效的 Transformer 机制，实现了视频修复的高效性和更好的效果。

Sep, 2023

流引导视频修复的误差补偿框架

本研究提出了基于流场引导的视频修复的误差补偿框架（ECFVI），通过设计新的流场完备模块和误差补偿网络，提高视频修复的时间连贯性和视觉质量，并通过新的基准测试数据集对所提出方法的高效性进行了支持。

Jul, 2022

IPT-V2: 高效的图像处理转换器使用层次注意力

近期的研究表明，基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而，我们的分析表明，现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系，而这对于恢复退化图像的细节和缺失内容非常关键。为此，我们提出了一种具有分层注意力的高效图像处理 Transformer 架构，称为 IPTV2，采用了一种聚焦上下文自注意力（FCSA）和全局网格自注意力（GGSA），以在局部和全局感受野中获取充分的令牌交互。具体而言，FCSA 将移位窗口机制应用于通道自注意力中，有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系，在空间维度中聚合全局信息。此外，我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明，我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果，包括去噪、去模糊、去雨等，并且在性能和计算复杂度的权衡方面获得了很大的改进。此外，我们将我们的方法扩展到图像生成作为潜在扩散的支撑，显著优于 DiTs。

Mar, 2024