通过预测卷积特征预测未来实例分割
本文介绍了一种新的任务,即预测未来帧的语义分割,并研发了一种基于自回归卷积神经网络的方法。该方法针对城市街景数据集进行了试验,结果表明,直接预测未来的分割比预测并分割未来的 RGB 帧要好得多,并且可信度更高。
Mar, 2017
本文提出基于特征预测的方法,用于自动驾驶等决策系统中对未来帧像素的预测,进而提高模型的性能表现,实现在 Cityscapes 测试数据集上的 state of the art 表现。
Jul, 2019
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。
Apr, 2019
本文提出了一种新的模型,使用 ConvLSTM 编码观察到的视频帧的时空信息来预测未观察到的未来帧的语义分割图,并扩展了双向 ConvLSTM 来捕获双向的时间信息,该方法在基准数据集上优于其他最先进的方法,为实时决策制定提供了可靠的解决方案。
Jul, 2018
本研究为了实现自主系统对未来的实时预测,将挑战性的语义预测任务分解为两个子任务:当前帧的分割和未来光流的预测,并通过引入流预测网络和特征 - 流聚合 LSTM 层以及可端到端学习的扭曲层来构建高效、有效、低开销的模型,最终实现在短期和移动对象语义预测方面的最新精度,并将模型参数降低了高达 95%,效率提高了 40 倍以上。
Sep, 2018
本文提出了一种名为 MaskRNN 的递归神经网络方法,它在每帧中利用两个深度成像网络输出(二元分割网络和定位网络)进行目标实例的视频对象分割以获取长时序结构和剔除异常值,结果在 DAVIS-2016、DAVIS-2017 和 Segtrack v2 数据集中均达到了最优表现。
Mar, 2018
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024