视频去模糊的流引导稀疏变压器
提出 Flow-guided transformer plus (FGT++) 模型,通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式,提高视频修复的效率与效果。
Jan, 2023
提出了一种名为 BSSTNet 的模型,它通过引入模糊图,将初始的密集注意力转化为稀疏形式,从而更全面地利用整个视频序列中的信息。BSSTNet 在变换器中使用了更长的时间窗口,利用较远帧中的信息来修复当前帧中的模糊像素,同时引入了由模糊图引导的双向特征传播,降低了由模糊帧引起的错误累积。实验结果表明,提出的 BSSTNet 在 GoPro 和 DVD 数据集上优于现有的方法。
Jun, 2024
提出了一种基于光学流的流程引导变压器,用于高保真视频修复,通过设计新颖的流完整网络来完成损坏的光流,并使用流引导变压器来合成其余的损坏区域,通过时间和空间维度解耦变压器,以便仅集成局部相关的完成的流来控制流对每个空间变压器的影响。
Aug, 2022
通过联合学习视频超分辨率和去模糊的方法,本文提出了一种名为 VSRDB 的视频清晰恢复方案,以从模糊的低分辨率视频中还原出干净的高分辨率视频。通过 FGDF 和 FRMA 两个部分构成的 FMA-Net 框架,我们的方法能够精确估计时空变化的退化和恢复内核,并通过迭代特征细化的方式进行多注意力的特征改进。鲁棒的实验证明了本文提出的 FMA-Net 在定量和定性方面优于现有的方法。
Jan, 2024
该论文提出了一种名为 PSLA 的新型模块,它通过逐步稀疏的步幅在局部区域内建立跨帧特征间的空间对应关系,并使用这个对应关系来传播特征。基于 PSLA,提出了 RFU 和 DenseFT 来分别建模时间外观和丰富特征表示,进而构建了一种新型的视频目标检测框架。实验表明,该方法在模型大小更小、运行时间可接受的情况下取得了最佳准确度。
Mar, 2019
提出了一种基于可学习的空间 - 时间采样 (LSTS) 模块、分散递归特征更新 (SRFU) 和密集特征聚合 (DFA) 模块,实现了视频目标检测中的准确空间对应关系,增强特征更新,提升检测性能,并在 ImageNet VID 数据集上取得了最先进的表现和实时速度。
Nov, 2019
本文提出了一种使用单尺度全局匹配的方法,使用混合的本地 - 全局 - 交叉转换器架构分解了特征提取步骤,以精确稳健的特征表示的可靠特征相似性为关键,并在多个场景流估计基准测试中取得了最新的最先进的性能。
May, 2023
提出了一种利用混合 Transformer 进行特征聚合的视频去模糊方法,该方法通过利用邻近帧和当前清晰帧恢复模糊帧,对事件驱动视频去模糊也有优秀表现。
Sep, 2023
本文提出了一种基于深度学习的视频还原方法,其采用递归融合模块和可变形时空注意力模块进行补偿,从而提高了众多现有算法在 MFQE 2.0 数据集上的还原质量。
Aug, 2021
近期的研究表明,基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而,我们的分析表明,现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系,而这对于恢复退化图像的细节和缺失内容非常关键。为此,我们提出了一种具有分层注意力的高效图像处理 Transformer 架构,称为 IPTV2,采用了一种聚焦上下文自注意力(FCSA)和全局网格自注意力(GGSA),以在局部和全局感受野中获取充分的令牌交互。具体而言,FCSA 将移位窗口机制应用于通道自注意力中,有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系,在空间维度中聚合全局信息。此外,我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明,我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果,包括去噪、去模糊、去雨等,并且在性能和计算复杂度的权衡方面获得了很大的改进。此外,我们将我们的方法扩展到图像生成作为潜在扩散的支撑,显著优于 DiTs。
Mar, 2024