球形视觉 Transformer 用于 360 度视频显著性预测

Aug, 2023

球形视觉 Transformer 用于 360 度视频显著性预测

Spherical Vision Transformer for 360-degree Video Saliency Prediction

Mert Cokelek, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem

TL;DR提出了一个基于视觉转换器的新型全景视频模型 SalViT360，利用切线图像表示，在球面几何感知的时空自注意机制方面提出了一种有效的全景视频理解方法，并引入了一种基于一致性的无监督正则化项以减少 360 度密集预测模型中逆投影之后出现的伪影，实验证明了该方法在三个全景视觉显著性数据集上的有效性超过了现有技术。

Abstract

The growing interest in omnidirectional videos (ODVs) that capture the full field-of-view (FOV) has gained 360-degree saliency prediction importance in computer vision. However, predicting where humans look in

omnidirectional videos saliency prediction 360-degree scenes vision-transformer-based model tangent images

发现论文，激发创造

全景视觉 Transformer 用于 360 度视频显著性检测

本文提出了一种名为 Panoramic Vision Transformer（PAVER）的新框架，能够使用 Vision Transformer 结合可变形卷积从 360 度视频的局部特征中学习视觉显著性，从而在 Wild360 基准测试上显著优于其他先进模型，无需监督或辅助信息。

Sep, 2022

SalNet360：使用 CNN 生成全向图像的显著性图

本文提出了一种对卷积神经网络进行扩展的架构，以使其能够有效地预测全向图像（ODI）中的视觉关注数据，从而为内容创建者提供帮助。研究人员通过展示每一步都可以使所生成的显着性地图与基础真实数据更加准确来证明这一算法的可行性。

Sep, 2017

360VOTS：全景视频中的视觉目标跟踪与分割

360° 全景视频中的视觉目标跟踪和分割是挑战性的，该论文提出了一种新的扩展视野边界表示方法，用于目标定位，并且利用该方法建立了一个适用于全景视觉目标跟踪和分割任务的通用框架。此外，论文还介绍了一个全面的数据集和基准测试集，用于开发和评估该领域的算法。经过广泛的实验，论文评估了最先进的方法，证明了提出的 360° 跟踪框架和训练数据集的有效性。

Apr, 2024

360° 突出物体检测中的失真感知 Transformer

通过引入两个变形自适应模块和学习关系矩阵，我们提出了一种基于 Transformer 的模型 (DATFormer) 来解决 360° 数据投影导致的特征失真问题，并在三个公开数据集上的实验中证明了该模型在 2D 和 360° 突出物检测任务上的优越性。

Aug, 2023

360VOT：一种新的全向视觉目标跟踪基准数据集

本文研究探索了如何利用 360° 图像进行视觉目标的追踪，并介绍了由于大变形、拼接伪影和其他独特属性所带来的新挑战。为了解决这些问题，文中提出了一种新颖的目标定位表示方式 —— 边界视野，并引入了一个通用的 360° 追踪框架，该框架可以用于全向追踪。此外，为了促进未来的研究，作者提出了一个新的大规模全向追踪基准数据集 ——360VOT，其中包含 120 个不同场景中的序列，共有 113K 个高分辨率的等距投影帧。追踪目标涵盖 32 个类别。另外，作者还提供了 4 种无偏的基准数据，包括（旋转的）边界框和（旋转的）边界视野，并提出了适用于 360° 图像的新度量标准，以便对全向追踪性能进行准确评估。最后，作者还对 20 种最先进的视觉追踪算法进行了广泛评估，并为未来的比较提供了新的基准。

Jul, 2023

适应全景视频的计算机视觉算法

本研究概述了全向（360 度）视频在计算机视觉算法中面临的挑战，如广泛采用的特殊（equirectangular）投影和巨大的图像尺寸，并提出了适应全向视频特定需求的计算机视觉算法策略。

Jul, 2019

OmniFusion: 基于几何感知融合的 360 单目深度估计

本篇论文提出了一种名为 OmniFusion 的 360 单目深度估计流程，通过将 360 图像转换为切线图像并采用 CNN 进行分段预测，最后合并分段结果以处理球形畸变问题，并通过几何感知特征融合机制、自注意力变换架构和迭代深度细化机制处理分段预测不一致问题，成功的在多个 360 单目深度估计基准数据集上取得了最先进的性能。

Mar, 2022

PanoNormal：单目室内 360° 表面法线估计

介绍了一种用于 360 度图像的单目表面法线估计架构 PanoNormal，通过使用多级全局自注意机制和考虑球面特征分布，结合了 CNN 和 ViTs 的优势，实现了在多个流行的 360 度单目数据集上的最先进性能。

May, 2024

OPDN: 全向位置感知变形网络用于全向图像超分辨率

本文提出了一种两阶段的 360 度全向图像超分辨率框架，利用全向位置感知可变形块（OPDB）和傅里叶上采样，以及空间频率融合模块（SFF）来增强 360 度全向图像的特征提取和高频信息，通过像素解交错操作和数据的收集和处理，该方法在 NTIRE 2023 挑战中的成绩卓越。

Apr, 2023

360 度切面图像的光流推算

本文提出了一种基于切线图像的 360 度光流方法，该方法利用诺蒙尼克投影将 ERP 图像局部转换为透视图像，并通过在立方体映射和正二十面体顶点投影到 ERP 图像中等距采样以增量地优化所估计的 360 度光流场。

Dec, 2021