基于缺陷感知掩模变换的视频修复模型

Jul, 2023

基于缺陷感知掩模变换的视频修复模型

Deficiency-Aware Masked Transformer for Video Inpainting

Yongsheng Yu, Heng Fan, Libo Zhang

TL;DR该研究提出了一种双模式兼容修复框架，称为 Deficiency-aware Masked Transformer (DMT)，通过自注意力模块和感受野上下文增强来提高视频修复的性能。

Abstract

Recent video inpainting methods have made remarkable progress by utilizing explicit guidance, such as optical flow, to propagate cross-frame pixels. However, there are cases where cross-frame recurrence of the masked video is not available, resulting in a deficiency. In such situation,

video inpainting deficiency-aware masked transformer image inpainting self-attention module receptive field contextualizer

发现论文，激发创造

视频外绘的分层掩码三维扩散模型

视频外延的研究中，我们引入了一种基于遮罩的三维扩散模型，在保持填充区域的时间连续性方面，通过使用遮罩建模技术训练模型，利用多个引导帧连接多个视频剪辑推理结果，确保了时间连续性，并减少相邻帧之间的抖动。另外，我们通过交叉注意力，以全局帧为提示，引导模型获取当前视频剪辑之外的信息。同时，我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题，与现有的只使用填充策略的由粗到细流程不同，我们的流程可以通过遮罩建模的双向学习，在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。

Sep, 2023

视频修复的解耦空时变形器

提出了 Decoupled Spatial-Temporal Transformer (DSTT) 来改进视频修复效果。该方法通过分解学习空间 - 时间注意力来提高时间和空间精度，同时采用分层编码器，形成更好的空间 - 时间注意力机制。实验证明，该方法比现有的视频修复方法具有更好的效率和性能。

Apr, 2021

多视角金字塔变换网络在视频修复检测中的应用

本文介绍了一种名为 MumPy 的新型多边时空视图金字塔变换器，提出了一种利用新设计的多边时空视图编码器和可变形窗口时空视图交互模块的方法来灵活地合作处理空间 - 时间线索，以及开发了一个多金字塔解码器来聚合各种特征并生成检测图，通过调整空间和时间线索的贡献强度，我们的方法能够有效地识别修复区域。我们在现有数据集上验证了我们的方法，并且基于 YouTube-VOS 数据集引入了一个新的具有挑战性和大规模的视频修复数据集，该数据集使用了几种更近期的修复方法。结果显示了我们的方法在域内和跨域评估场景中的优越性。

Apr, 2024

HINT：具有掩膜感知编码和增强注意力的高质量修复变换器

通过引入新颖的遮罩感知像素混洗下采样模块（MPD）和在模型内进行高级推理的同时保持提取自损坏图像的可见信息的完整性的方法，以及通过空间激活通道注意力层（SCAL）提供的有效自注意力机制在多个尺度上对损坏图像建模，我们提出了一种端到端的高质量修复变换器 (HINT)，该方法在 CelebA、CelebA-HQ、Places2 和敦煌等四个数据集上展示了超越当代最先进模型的卓越性能。

Feb, 2024

MAT: 大洞图像修复的掩模感知 Transformer

本文提出了一种基于 transformer 的大孔修复模型，它结合了大尺寸的图像处理和 transformer 的优势，通过在注意力模块中定制面向修复的 transformer 块并使用动态掩码来聚合非局部信息，得到了在多个基准数据集上最先进的效果。

Mar, 2022

基于条件扩散模型的语义一致视频修复

通过将视频修复问题作为条件生成建模问题加以解决的框架，以及利用生成方法的优势，本文展示了能够生成多样化且高质量修复效果的方法，并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。

Apr, 2024

基于变压器的视频修补中利用光流指导

提出 Flow-guided transformer plus (FGT++) 模型，通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式，提高视频修复的效率与效果。

Jan, 2023

端到端级联细化的图像修复及遮罩感知

提出了一种新的基于掩模感知的修复算法，使用 Mask-Aware Dynamic Filtering (MADF) 学习缺失区域的多尺度特征，采用 Point-wise Normalization (PN) 动态分配权重，在一个端到端的框架中逐步利用重建损失、感知损失和总变分损失进行逐步优化。实验证明该算法在三个公共数据集上表现得非常出色。

Apr, 2021

双向与自回归变换器的多样图像修复

BAT-Fill 提出了一种图像修复的新框架，使用了基于 transformers 的双向自回归模型，在考虑到上下文信息的基础上修复缺失或破损的区域，使得修缮后的图片具有更好的内容多样性和视觉效果。

Apr, 2021

基于 Flow-Guided 技术的视频修复 Transformer

提出了一种基于光学流的流程引导变压器，用于高保真视频修复，通过设计新颖的流完整网络来完成损坏的光流，并使用流引导变压器来合成其余的损坏区域，通过时间和空间维度解耦变压器，以便仅集成局部相关的完成的流来控制流对每个空间变压器的影响。

Aug, 2022