TBN-ViT：基于视觉 Transformer 的时间双边网络用于视频场景解析

ICCVDec, 2021

TBN-ViT：基于视觉 Transformer 的时间双边网络用于视频场景解析

TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video Scene Parsing

Bo Yan, Leilei Cao, Hongbin Wang

TL;DR本研究使用 VSPW 数据集设计了一个基于时空双边网络和视觉转换器的视频场景解析模型，该模型利用卷积和视觉转换器获得空间和上下文信息，并且使用时间上下文模块获取帧间上下文信息，实验证明该模型可以在 VSPW2021 挑战赛中获得 49.85% 的 mIoU。

Abstract

video scene parsing in the wild with diverse scenarios is a challenging and great significance task, especially with the rapid development of automatic driving technique. The dataset →

video scene parsing automatic driving dataset network inter-frames contextual information

发现论文，激发创造

通过对比损失和多数据集训练方法在 VSPW 数据集上进行语义分割

本文针对视频语义分割问题，探究利用对比损失增强时空相关性，以及多数据集训练对模型的影响，并将两种模型的输出进行聚合，最终在 VSPW 数据集上达到了 65.95% mIoU 的性能，在 CVPR 2023 的 VSPW 挑战上取得了第一名。

Jun, 2023

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

TBP-Former: 学习视觉中心自动驾驶联合感知和预测的时间视角金字塔

通过提出基于时间的俯视图金字塔变换器 (TBP-Former)，实现了自动驾驶中多个摄像头视图和时间戳的特征同步以及对空间 - 时间特征的优化，从而在 nuScenes 数据集上表现优于所有最先进的基于视觉的预测方法。

Mar, 2023

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

Video-SwinUNet：VFSS 实例分割的时空深度学习框架

本文提出了一个基于深度学习的医学视频分割框架，通过时间特征融合和 Swin Transformer 编码强大的全局空时特征以及使用 UNet 编码解码结构，实现了在 VFSS2022 数据集上分割性能显著优于其他方法的效果。

Feb, 2023

基于 Transformer 的高时序维度解码的视频显著性预测

基于变压器的高时间维度解码网络（THTD-Net）是一种用于视频显著性预测的策略，通过对时态特征进行聚合，从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。

Jan, 2024

BATMAN: 双边注意力变换器用于运动 - 外观邻域空间的视频对象分割

在这篇文章中，作者们提出了一个基于 Bilateral Attention Transformer 的新型半监督 Video Object Segmentation 算法，该算法通过光流校准模块来捕捉视频中的物体运动，从而降低物体边界噪音，并利用邻域双边空间中的对应关系计算查询和参考帧之间的对应关系，从而提高物体分割效果。该算法在所有四个流行的 VOS 基准测试（Youtube-VOS 2019，Youtube-VOS 2018，DAVIS 2017Val/Testdev 和 DAVIS 2016）上都比现有的半监督 VOS 算法表现更优。

Aug, 2022

用通道分割网络和 Transformer 的双边网络在热成像超分辨率上的应用

本文介绍了一个名为 BN-CSNT 的双边网络设计，通过频道分裂网络和 Transformer 解决了 TISR 问题，最终在 PBVS-2022 挑战测试数据集上实现了良好的表现，x4 的 PSNR 为 33.64，SSIM 为 0.9263，x2 的 PSNR 为 21.08，SSIM 为 0.7803。

Jun, 2022

BiSeNet: 双边分割网络用于实时语义分割

本文提出了一种名为 Bilateral Segmentation Network（BiSeNet）的新型网络结构，通过引入 Spatial Path、Context Path 以及 Feature Fusion Module 三个模块，实现了在保持高分辨率的同时增加感受野，达到了在 Cityscapes、CamVid 和 COCO-Stuff 数据集上速度和分割性能相对平衡的效果，对于 2048x1024 的输入，我们在 Cityscapes 测试数据集上实现了 68.4％的平均 IOU，在 NVIDIA Titan XP 卡上的速度为 105 FPS，比现有方法更快，同时性能相当。

Aug, 2018

利用时间结构进行生物医学视觉语言处理的学习

本文提出一种名为 BioViL-T 的方法，使用了了同时训练和微调过程中的先前图像和报告，通过 CNN-Transformer 混合多图像编码器与文本模型协同训练，获得了最先进的性能，在单图像和多图像设置下实现了进展分类，短语接地和报告生成，并在疾病分类和句子相似性任务上持续提供改进，并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。

Jan, 2023