Aug, 2023

PanoSwin:全景风格的Swin Transformer用于全景理解

TL;DR本文提出了一种名为PanoSwin的简单而有效的架构,用于学习具有ERP的全景表示。通过探索全景式位移窗口方案和新颖的俯仰注意力分别解决边界不连续和空间失真的挑战,并利用绝对位置嵌入和相对位置偏差来增强全景几何信息。同时,通过设计一种新颖的两阶段学习框架,从平面图像向全景图像进行知识转移,实验结果表明PanoSwin在全景理解方面具有有效性。