基于缺陷感知掩模变换的视频修复模型
视频外延的研究中,我们引入了一种基于遮罩的三维扩散模型,在保持填充区域的时间连续性方面,通过使用遮罩建模技术训练模型,利用多个引导帧连接多个视频剪辑推理结果,确保了时间连续性,并减少相邻帧之间的抖动。另外,我们通过交叉注意力,以全局帧为提示,引导模型获取当前视频剪辑之外的信息。同时,我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题,与现有的只使用填充策略的由粗到细流程不同,我们的流程可以通过遮罩建模的双向学习,在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。
Sep, 2023
提出了 Decoupled Spatial-Temporal Transformer (DSTT) 来改进视频修复效果。该方法通过分解学习空间 - 时间注意力来提高时间和空间精度,同时采用分层编码器,形成更好的空间 - 时间注意力机制。实验证明,该方法比现有的视频修复方法具有更好的效率和性能。
Apr, 2021
本文介绍了一种名为 MumPy 的新型多边时空视图金字塔变换器,提出了一种利用新设计的多边时空视图编码器和可变形窗口时空视图交互模块的方法来灵活地合作处理空间 - 时间线索,以及开发了一个多金字塔解码器来聚合各种特征并生成检测图,通过调整空间和时间线索的贡献强度,我们的方法能够有效地识别修复区域。我们在现有数据集上验证了我们的方法,并且基于 YouTube-VOS 数据集引入了一个新的具有挑战性和大规模的视频修复数据集,该数据集使用了几种更近期的修复方法。结果显示了我们的方法在域内和跨域评估场景中的优越性。
Apr, 2024
通过引入新颖的遮罩感知像素混洗下采样模块(MPD)和在模型内进行高级推理的同时保持提取自损坏图像的可见信息的完整性的方法,以及通过空间激活通道注意力层(SCAL)提供的有效自注意力机制在多个尺度上对损坏图像建模,我们提出了一种端到端的高质量修复变换器 (HINT),该方法在 CelebA、CelebA-HQ、Places2 和敦煌等四个数据集上展示了超越当代最先进模型的卓越性能。
Feb, 2024
本文提出了一种基于 transformer 的大孔修复模型,它结合了大尺寸的图像处理和 transformer 的优势,通过在注意力模块中定制面向修复的 transformer 块并使用动态掩码来聚合非局部信息,得到了在多个基准数据集上最先进的效果。
Mar, 2022
通过将视频修复问题作为条件生成建模问题加以解决的框架,以及利用生成方法的优势,本文展示了能够生成多样化且高质量修复效果的方法,并能够在时间、空间和语义上与给定的上下文相协调地合成新内容。
Apr, 2024
提出 Flow-guided transformer plus (FGT++) 模型,通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式,提高视频修复的效率与效果。
Jan, 2023
提出了一种新的基于掩模感知的修复算法,使用 Mask-Aware Dynamic Filtering (MADF) 学习缺失区域的多尺度特征,采用 Point-wise Normalization (PN) 动态分配权重,在一个端到端的框架中逐步利用重建损失、感知损失和总变分损失进行逐步优化。实验证明该算法在三个公共数据集上表现得非常出色。
Apr, 2021
BAT-Fill 提出了一种图像修复的新框架,使用了基于 transformers 的双向自回归模型,在考虑到上下文信息的基础上修复缺失或破损的区域,使得修缮后的图片具有更好的内容多样性和视觉效果。
Apr, 2021
提出了一种基于光学流的流程引导变压器,用于高保真视频修复,通过设计新颖的流完整网络来完成损坏的光流,并使用流引导变压器来合成其余的损坏区域,通过时间和空间维度解耦变压器,以便仅集成局部相关的完成的流来控制流对每个空间变压器的影响。
Aug, 2022