语义流：从单目视频中学习动态场景的语义领域

ICLRApr, 2024

语义流：从单目视频中学习动态场景的语义领域

Semantic Flow: Learning Semantic Field of Dynamic Scenes from Monocular Videos

Fengrui Tian, Yueqi Duan, Angtian Wang, Jianfei Guo, Shaoyi Du

TL;DR本文中，我们提出了 Semantic Flow，一种从单 ocular videos 中学习动态场景的神经语义表示。与以往的 NeRF 方法不同，它通过包含丰富的三维运动信息的连续流来学习语义。我们考虑从二维视频帧中提取三维流特征时视线方向上的二维到三维模糊问题，将体积密度视为描述流特征对帧语义贡献的不透明度先验。我们首先学习流网络预测动态场景中的流，并提出流特征聚合模块从视频帧中提取流特征。然后，我们提出流注意模块从流特征中提取运动信息，随后是语义网络输出流的语义 logits。我们将 logits 与视线方向上的体积密度相结合，以在视频帧上监督流特征与语义标签的学习。实验结果表明，我们的模型能够学习多个动态场景，并支持一系列新任务，如实例级场景编辑、语义补全、动态场景跟踪和对新场景的语义适应。可在此 https URL 获取代码。

Abstract

In this work, we pioneer semantic flow, a neural semantic representation of dynamic scenes from monocular videos. In contrast to previous

semantic flow neural semantic representation dynamic scenes flow features semantic labels

发现论文，激发创造

用神经场景流场进行动态场景的时空视图合成

提出了一种使用神经场地理概念表示动态场景，并利用单目视频生成新视角和时间合成的方法。通过神经网络优化新的场景流场来适应观测输入视角，并在复杂动态场景中表现出较好的性能。

Nov, 2020

视频场景全面理解的精简语义

本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议，能够同时学习单目摄像机所需的几何、运动和语义信息，从而实现对整个场景的全面识别。实验结果表明，该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现，并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。

Mar, 2020

快速准确场景分割的语义流

本文提出了一种名为 'Flow Alignment Module' 的方法，通过学习场景不同层级之间的语义流，并将高层次特征有效和高效地广播到高分辨率特征，使得在轻量级骨干网络上如 ResNet-18 表现卓越，在 Cityscapes 数据集上获得了 80.4% 分割精度，时速达到 26FPS。

Feb, 2020

学习语义感知动态视频预测

该研究提出了一种架构和训练方案，通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。

Apr, 2021

用于语义视频分割的动态单元体结构搜索

本文旨在开发一种通用方法，以前沿的语义视频分割技术结构为基础，通过使用神经体系结构搜索解决方案，设计连接每帧网络输出的上下文块。利用通用的方法，该方法能在市区景观和 CamVid 数据集等常见基准测试中实现稳定和准确的结果，并且仅需要 2 GPU 天即可完成。

Apr, 2019

自监督单目场景流估计

本文提出的单目场景流（Scene Flow）估计方法基于一个卷积神经网络（CNN），通过充分考虑光流代价体积，成功估算出深度和三维运动。我们采用了自监督学习方法，利用三维损失函数和遮挡推理来提高估计精度。实验结果表明，该方法在单目场景流估计领域取得了最佳性能，同时在光流和单目深度估计子任务上也获得了很好的结果。

Apr, 2020

OccFlowNet: 基于可微分渲染和占据流的自监督占据估计

通过利用 2D 标签，我们提出了一种基于神经辐射场（NeRF）的新方法来估计体素占据，结合时间渲染和占据流，进一步推进了体素占据预测，并且在该领域中取得了最先进的性能。

Feb, 2024

利用深度学习的光流生成移动物体候选框进行视频物体分割

本研究提出了一种先进的神经网络结构，通过训练无监督的卷积神经网络对光流进行估计，然后将光流网络的输出渲染到完全卷积 SegNet 模型中，从而准确高效地获取运动目标提案。

Feb, 2024

学习 3D 点云中的场景流

本研究提出了一种新颖的神经网络模型 FlowNet3D，该模型旨在从点云数据中学习场景流，该模型可以通过扫描定位和运动分割等多种应用，对 Lidar 扫描等多种实际场景进行高效准确的场景流处理。

Jun, 2018

SFNet: 学习物体感知的语义对应性

通过使用二进制前景蒙版和几何变形训练卷积神经网络（CNN）实现语义对应的密集流场，提出了一种新的 CNN 框架 SFNet，并在各项基准测试中表现出比现有方案更好的泛化性能。

Apr, 2019