ICCVDec, 2021

TBN-ViT:基于视觉 Transformer 的时间双边网络用于视频场景解析

TL;DR本研究使用 VSPW 数据集设计了一个基于时空双边网络和视觉转换器的视频场景解析模型,该模型利用卷积和视觉转换器获得空间和上下文信息,并且使用时间上下文模块获取帧间上下文信息,实验证明该模型可以在 VSPW2021 挑战赛中获得 49.85% 的 mIoU。