球形视觉 Transformer 用于 360 度视频显著性预测
本文提出了一种名为 Panoramic Vision Transformer(PAVER)的新框架,能够使用 Vision Transformer 结合可变形卷积从 360 度视频的局部特征中学习视觉显著性,从而在 Wild360 基准测试上显著优于其他先进模型,无需监督或辅助信息。
Sep, 2022
本文提出了一种对卷积神经网络进行扩展的架构,以使其能够有效地预测全向图像(ODI)中的视觉关注数据,从而为内容创建者提供帮助。研究人员通过展示每一步都可以使所生成的显着性地图与基础真实数据更加准确来证明这一算法的可行性。
Sep, 2017
360° 全景视频中的视觉目标跟踪和分割是挑战性的,该论文提出了一种新的扩展视野边界表示方法,用于目标定位,并且利用该方法建立了一个适用于全景视觉目标跟踪和分割任务的通用框架。此外,论文还介绍了一个全面的数据集和基准测试集,用于开发和评估该领域的算法。经过广泛的实验,论文评估了最先进的方法,证明了提出的 360° 跟踪框架和训练数据集的有效性。
Apr, 2024
通过引入两个变形自适应模块和学习关系矩阵,我们提出了一种基于 Transformer 的模型 (DATFormer) 来解决 360° 数据投影导致的特征失真问题,并在三个公开数据集上的实验中证明了该模型在 2D 和 360° 突出物检测任务上的优越性。
Aug, 2023
本文研究探索了如何利用 360° 图像进行视觉目标的追踪,并介绍了由于大变形、拼接伪影和其他独特属性所带来的新挑战。为了解决这些问题,文中提出了一种新颖的目标定位表示方式 —— 边界视野,并引入了一个通用的 360° 追踪框架,该框架可以用于全向追踪。此外,为了促进未来的研究,作者提出了一个新的大规模全向追踪基准数据集 ——360VOT,其中包含 120 个不同场景中的序列,共有 113K 个高分辨率的等距投影帧。追踪目标涵盖 32 个类别。另外,作者还提供了 4 种无偏的基准数据,包括(旋转的)边界框和(旋转的)边界视野,并提出了适用于 360° 图像的新度量标准,以便对全向追踪性能进行准确评估。最后,作者还对 20 种最先进的视觉追踪算法进行了广泛评估,并为未来的比较提供了新的基准。
Jul, 2023
本研究概述了全向(360 度)视频在计算机视觉算法中面临的挑战,如广泛采用的特殊(equirectangular)投影和巨大的图像尺寸,并提出了适应全向视频特定需求的计算机视觉算法策略。
Jul, 2019
本篇论文提出了一种名为 OmniFusion 的 360 单目深度估计流程,通过将 360 图像转换为切线图像并采用 CNN 进行分段预测,最后合并分段结果以处理球形畸变问题,并通过几何感知特征融合机制、自注意力变换架构和迭代深度细化机制处理分段预测不一致问题,成功的在多个 360 单目深度估计基准数据集上取得了最先进的性能。
Mar, 2022
介绍了一种用于 360 度图像的单目表面法线估计架构 PanoNormal,通过使用多级全局自注意机制和考虑球面特征分布,结合了 CNN 和 ViTs 的优势,实现了在多个流行的 360 度单目数据集上的最先进性能。
May, 2024
本文提出了一种两阶段的 360 度全向图像超分辨率框架,利用全向位置感知可变形块(OPDB)和傅里叶上采样,以及空间频率融合模块(SFF)来增强 360 度全向图像的特征提取和高频信息,通过像素解交错操作和数据的收集和处理,该方法在 NTIRE 2023 挑战中的成绩卓越。
Apr, 2023
本文提出了一种基于切线图像的 360 度光流方法,该方法利用诺蒙尼克投影将 ERP 图像局部转换为透视图像,并通过在立方体映射和正二十面体顶点投影到 ERP 图像中等距采样以增量地优化所估计的 360 度光流场。
Dec, 2021