TBN-ViT:基于视觉 Transformer 的时间双边网络用于视频场景解析
本文针对视频语义分割问题,探究利用对比损失增强时空相关性,以及多数据集训练对模型的影响,并将两种模型的输出进行聚合,最终在 VSPW 数据集上达到了 65.95% mIoU 的性能,在 CVPR 2023 的 VSPW 挑战上取得了第一名。
Jun, 2023
本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究,将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务,与三维检测等方法相比,它更准确地捕捉了三维细节。现有方法主要关注空间线索,而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer,它是 TPVFormer 的扩展,利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性,特别是在三维语义占据预测中,我们的工作探索了较少研究的时间线索领域。通过利用三视角视图(Tri-Perspective View,简称 TPV)表示,我们的时空编码器生成具有时间上下文的嵌入,提高了预测的一致性,同时保持了计算效率。为了实现这一点,我们提出了一种新颖的时空跨视图混合注意机制(Temporal Cross-View Hybrid Attention,简称 TCVHA),促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明,与 TPVFormer 相比,提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合(mIoU)改进,验证了其提高三维场景感知效果的有效性。
Jan, 2024
通过提出基于时间的俯视图金字塔变换器 (TBP-Former),实现了自动驾驶中多个摄像头视图和时间戳的特征同步以及对空间 - 时间特征的优化,从而在 nuScenes 数据集上表现优于所有最先进的基于视觉的预测方法。
Mar, 2023
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
Apr, 2022
本文提出了一个基于深度学习的医学视频分割框架,通过时间特征融合和 Swin Transformer 编码强大的全局空时特征以及使用 UNet 编码解码结构,实现了在 VFSS2022 数据集上分割性能显著优于其他方法的效果。
Feb, 2023
基于变压器的高时间维度解码网络(THTD-Net)是一种用于视频显著性预测的策略,通过对时态特征进行聚合,从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。
Jan, 2024
在这篇文章中,作者们提出了一个基于 Bilateral Attention Transformer 的新型半监督 Video Object Segmentation 算法,该算法通过光流校准模块来捕捉视频中的物体运动,从而降低物体边界噪音,并利用邻域双边空间中的对应关系计算查询和参考帧之间的对应关系,从而提高物体分割效果。该算法在所有四个流行的 VOS 基准测试(Youtube-VOS 2019,Youtube-VOS 2018,DAVIS 2017Val/Testdev 和 DAVIS 2016)上都比现有的半监督 VOS 算法表现更优。
Aug, 2022
本文介绍了一个名为 BN-CSNT 的双边网络设计,通过频道分裂网络和 Transformer 解决了 TISR 问题,最终在 PBVS-2022 挑战测试数据集上实现了良好的表现,x4 的 PSNR 为 33.64,SSIM 为 0.9263,x2 的 PSNR 为 21.08,SSIM 为 0.7803。
Jun, 2022
本文提出了一种名为 Bilateral Segmentation Network(BiSeNet)的新型网络结构,通过引入 Spatial Path、Context Path 以及 Feature Fusion Module 三个模块,实现了在保持高分辨率的同时增加感受野,达到了在 Cityscapes、CamVid 和 COCO-Stuff 数据集上速度和分割性能相对平衡的效果,对于 2048x1024 的输入,我们在 Cityscapes 测试数据集上实现了 68.4%的平均 IOU,在 NVIDIA Titan XP 卡上的速度为 105 FPS,比现有方法更快,同时性能相当。
Aug, 2018
本文提出一种名为 BioViL-T 的方法,使用了了同时训练和微调过程中的先前图像和报告,通过 CNN-Transformer 混合多图像编码器与文本模型协同训练,获得了最先进的性能,在单图像和多图像设置下实现了进展分类,短语接地和报告生成,并在疾病分类和句子相似性任务上持续提供改进,并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。
Jan, 2023