Accel: 一种用于视频高效语义分割的校正融合网络
探究CRF 推理模块的效率,将语义共同标记和更具表现力的模型结合起来,能够更有效地处理图像层次和区域层次的标记一致性和上下文。由此,本文将空间平滑和出现核扩展到视频数据上,以实现视频语义分割的最佳效果。
Jul, 2015
本研究提出了一种视频语义分割框架,该框架利用特征传播模块和自适应调度器相结合的方法,通过时间间隔自适应地融合特征并根据准确性预测动态分配计算量,以实现低延迟和高语义分割质量。实验结果表明,在与现有模型的比较中,该模型在Cityscapes和CamVid这两个数据集上获得了竞争性的性能,并将延迟从360 ms降低到119 ms。
Apr, 2018
提出一种新的框架以实现视频语义分割和光流估计的联合训练,通过联合训练利用视频中已标记和未标记的帧,使视频语义分割和光流估计更加稳健并在相应任务中表现优异。
Nov, 2019
本文提出了一种高清视频实时语义分割的混合GPU / CPU方法,并给出了一种称之为EVS的管道,该管道结合了CPU和GPU两种不同的处理方式,以优化视频帧率和分割准确度。
Dec, 2019
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在Cityscapes和Camvid等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
本文提出了一个名为 TapLab 的简单有效的框架,通过利用压缩视频中的知识来加速实时语义视频分割。通过使用运动矢量进行快速特征变形,以及使用残差解决因运动矢量引入的噪声,TapLab 将现有技术的冗余计算量减少了 3 到 10 倍,并在可控的精度下降的条件下实现了 99.8 FPS。
Mar, 2020
该研究提出了一种名为Bilateral Segmentation Network (BiSeNet V2)的神经网络架构,通过将空间细节和分类语义分别处理来实现高效准确的实时语义分割,并使用Detailed Branch和Semantic Branch来分别处理低级和高级特征。
Apr, 2020
该论文提出了一种无监督在线适应方法,名为AuxAdapt,用于提高神经网络模型的时域一致性,通过利用一个辅助分割网络(AuxNet)对原始的分割网络(Main-Net)的决策进行针对性的修改,实现对视频序列的快速、准确、稳定的训练。
Oct, 2021
本文提出了一种使用多尺度特征融合网络和BiFPN来进行实时图像语义分割的方法ESeg,通过扩展传统的多尺度特征空间来实现,不需要高分辨率和昂贵的空洞卷积。实验证明,ESeg在多个数据集上的表现比先前的方法更准确,并且实时性能得到提升。
Mar, 2022