SGDFormer:一阶段基于 Transformer 的跨光谱立体图像引导去噪架构
在本文中,我们提出了一种名为 VSFormer 的视觉空间融合转换器,通过交叉关注获取场景的高度抽象视觉线索,进而通过联合视觉空间融合模块将这些视觉线索嵌入到相应的对应关系中,实现对内点的识别和相机姿态恢复,同时通过结合基于 KNN 的图和转换器的新颖模块有效捕捉局部和全局背景的一致性,大量实验证明所提出的 VSFormer 在室内外基准上优于现有方法。
Dec, 2023
本文提出了一种名为 SGFormer 的球面几何转换器,旨在解决 360 深度估计中的全景畸变问题,并通过将球面几何先验引入视觉转换器来增强其性能。在实验中,我们对流行的基准数据集进行了广泛的测试,证明了我们方法优于现有最先进的解决方案。
Apr, 2024
在本文中,我们观察到在使用 Vision Transformer 进行 UDC 受损图像恢复时,全局注意机制会采样大量冗余信息和噪音。基于此发现,我们提出了一种基于分割引导的稀疏 Transformer 方法(SGSFormer),用于从 UDC 受损图像中恢复高质量图像。具体而言,我们利用稀疏自注意力过滤冗余信息和噪音,引导模型的注意力集中在需要重建的受损区域上。此外,我们还集成了实例分割图作为先验信息,以指导稀疏自注意力在过滤和关注正确区域方面的工作。
Mar, 2024
利用自适应细粒度的全局自注意力,SG-Former 模型通过重分配代币实现了高性能,其基本模型在 ImageNet-1K 上达到了 84.7%的 Top-1 准确率,在 CoCo 上达到了 51.2mAP 的 bbAP,在 ADE20K 上达到了 52.7mIoU 的准确率,超过了 Swin Transformer 模型,而计算成本和参数较少。
Aug, 2023
本研究提出了一种名为 SpectralFormer 的新型网络,它采用了变形金刚模型,从时序的角度重新构思了超光谱图像分类问题,并在三个数据集上证明了其优越性。
Jul, 2021
本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构,该架构的表现优于其他转换器表示形式,特别是在图像识别任务中。
Apr, 2023
本研究介绍了一种新颖的单阶段双模态变压器框架用于手术室中的场景图生成,名为 S^2Former-OR,旨在以端到端的方式辅助利用多视角的 2D 场景和 3D 点云进行场景图生成。通过引入视图同步转运方案促进多视角视觉信息交互,设计几何视觉凝聚操作将 2D 语义特征与 3D 点云特征进行整合,基于增广特征,提出了一种新颖的关系敏感变压器解码器,嵌入动态实体对查询和关系特征先验,实现了无需中间步骤直接预测实体对关系的图生成。通过广泛的实验证明了 S^2Former-OR 在 4D 手术室基准测试中具有卓越的场景图生成性能和较低的计算成本,与当前 OR-SGG 方法相比,例如提高了 3%的精度并减少了 24.2M 的模型参数。我们进一步将我们的方法与更广泛指标的通用单阶段 SGG 方法进行了全面评估,始终获得更好的性能。代码将提供。
Feb, 2024
本文提出 TS3D,一种基于 Transformer 的立体感知 3D 物体检测器,其中包括一种新颖的视差位置编码模型(DAPE)和 Stereo Reserving Feature Pyramid Network(SRFPN),使其在 KITTI 测试集上取得了 41.29%的平均精度。
Apr, 2023
本文介绍了一种名为 DFormer 的方法,用于实现全局图像分割,该方法将全局图像分割任务视为使用扩散模型的降噪过程,在地面真实掩模上添加各个层次的高斯噪声,然后学习模型从损坏掩模中预测降噪掩模,最后使用基于扩散的解码器逐渐执行掩模预测,并直接从一组随机生成的蒙版中预测掩模和相应类别。
Jun, 2023
通过引入 Gabor 滤波器,利用 Gabor 引导转换器(Gabformer)来增强局部纹理特征的聚焦,改善模型对噪声的鲁棒性,并在基准测试中表现优于最先进的方法。
Mar, 2024