DarSwin: 扭曲感知径向 Swin Transformer
利用深度学习管道,同时对一系列畸变图像进行对齐和重构,并通过 Swin Transformer 模型分析顺序图像数据,通过注意力图检测相关图像内容并与离群值和伪影区分开来,利用神经特征图作为经典关键点检测器的替代方法,从而提供稠密图像描述符以寻找图像间的点对应关系,并运用此来计算粗略的图像对齐并探索其局限性。
Oct, 2023
本研究提出了一种结合 HEALPix 网格和 SWIN transformer 的模型,名为 HEAL-SWIN transformer,可以在高分辨率、无失真的球面数据上进行训练,用于语义分割和深度回归任务,且性能更优。
Jul, 2023
提出一种半监督网络用于广角肖像矫正,利用一致性机制和多尺度 Swin Transformer 块构建 MS-Unet 网络,同时使用标记和未标记数据进行训练,实现了比现有方法更优异的结果。
Sep, 2021
本文提出了一种名为 PanoSwin 的简单而有效的架构,用于学习具有 ERP 的全景表示。通过探索全景式位移窗口方案和新颖的俯仰注意力分别解决边界不连续和空间失真的挑战,并利用绝对位置嵌入和相对位置偏差来增强全景几何信息。同时,通过设计一种新颖的两阶段学习框架,从平面图像向全景图像进行知识转移,实验结果表明 PanoSwin 在全景理解方面具有有效性。
Aug, 2023
通过引入两个变形自适应模块和学习关系矩阵,我们提出了一种基于 Transformer 的模型 (DATFormer) 来解决 360° 数据投影导致的特征失真问题,并在三个公开数据集上的实验中证明了该模型在 2D 和 360° 突出物检测任务上的优越性。
Aug, 2023
探索运动信息在运动去模糊任务中的重要性,最近基于窗口的 Transformer 方法在图像去模糊中取得了不错的性能。然而,这些方法只是在笛卡尔坐标系中直接探索平移运动,而无法建模旋转部分,因此我们引入了基于极坐标的 Transformer 来解决这个问题,并提出了一个基于极坐标系统而非笛卡尔系统的 Radial Strip Transformer 架构,该架构通过动态径向嵌入模块来提取浅层特征,以及通过极向条纹注意力求解器来提取深度特征,实验结果表明我们的方法在图像去模糊任务中的性能优于其他最先进方法。
Mar, 2024
利用变形补丁嵌入(DPE)和变形 MLP(DMLP),并结合传输学习方法,将针孔相机图像的语义注释和 360 度环视视觉的语义注释结合起来,从而实现全景图像的稳健分割,并通过互补原型自适应实现无监督域自适应。在 Stanford2D3D 数据集中,与完全受监督的现有技术相比,我们的 Trans4PASS 与 MPA 保持可比的性能,而无需超过 1,400 个标记化全景图像。在室外 DensePASS 数据集中,我们打破了现有技术水平,使 mIoU 提高了 14.39%,将新标准设定为 56.38%。
Mar, 2022
本研究提出了一种基于 Swin Transformer 的强基线模型 SwinIR,用于图像恢复,通过对三种典型任务进行实验(图像超分辨率、图像降噪和 JPEG 压缩),实验结果表明,SwinIR 在不同任务上的表现比最先进的方法提高了至多 0.14~0.45dB,同时可以将参数总数减少高达 67%。
Aug, 2021
本研究介绍了第一个基于深度学习的方法,用于去除自由拍摄的广角人像照片中的透视失真和形变等因素,建立了一个包括 LineNet,ShapeNet 和 transition module(TM)的级联网络,并提出了两个新的度量标准:线条一致性和面部一致性,相比之前的最先进方法,本方法不需要相机失真参数,能够在身份、场景和相机模块的大多数多样性方面得到较好的性能。
Apr, 2021
借助基于 Swin Transformer 结构的 deep learning 方法进行恢复图像分辨率的研究,提出了一种具有先进的稀疏小波框架的三步解卷积框架,与传统的 Firedec 算法相比,我们的方法在恢复分辨率、适应不同噪声特性和计算效率方面展示出巨大优势,对于从地面图像中识别远程宇宙中的结构具有很大的潜力。
May, 2024