本文提出了一个新的模型来同时预测未来视频帧中的场景分析和光流估计。通过将场景分析和光流估计相结合,我们的模型在大规模数据集 Cityscapes 上显示出了显着更好的解析和运动预测结果。此外,我们还展示了我们的模型可以预测车辆的转向角度,从而进一步验证了我们的模型学习场景动态的潜在表示的能力。
Nov, 2017
本文研究跨视角视频理解的联合分析框架,将视角为中心的建议集成到场景为中心的解析图中,以表示跨视角场景的连贯场景为中心的理解,生成语义场景为中心的解析图。定量实验表明,解析图中的场景为中心的预测优于视角为中心的预测。
Sep, 2017
通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案,本研究提出了一种通用且简单的框架,用于处理有限标记情况下的 3D 场景理解,从而在数据效率学习和开放世界少样本学习方面展现了有效性。
Dec, 2023
我们提出了一种新颖的双流框架,从多个角度(即时间和非时间角度)建模视频表示,并通过自蒸馏方式将两个角度融合在一起,在视频场景识别任务中自然引入知识。我们的实验结果表明,我们提出的方法是有效的。
Jan, 2024
本文提出了基于参数化和非参数化模型的全局语境信息来进行场景解析,使用场景相似性训练上下文网络生成特征表示来生成空间和全局先验知识,然后将这些特征表示和先验知识嵌入到分割网络作为额外的全局上下文提示。实验表明该方法可以消除与全局上下文表示不兼容的误报,且在 MIT ADE20K 和 PASCAL Context 数据集上表现良好。
Oct, 2017
通过循环卷积神经网络的方法,可在不依赖于分割方法和任务特定特征的情况下,对图像里的所有像素赋予分类标签,并且无需在测试时像其他方法那样昂贵,因此可在 Stanford Background 数据集和 SIFT Flow 数据集上获得最先进的性能。
Jun, 2013
这篇论文研究了一项名为统一感知分析的新任务,通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念,最后在自然场景中应用训练网络来发现视觉知识。
Jul, 2018
将场景解析或语义分割应用于图像,使用从原始像素训练的多尺度卷积网络作为特征提取器,将图像分割成多个区域,并对每个区域分类,从而实现对象检测和图像标注。
Feb, 2012
通过改进概率分类器的标签似然度和引入全局标签代价,本论文提出了一种非参数景观分析方法,提高了场景图像中前景类别的覆盖率和总体准确性,并在两个大型数据集上达到了最先进的性能。
Oct, 2015
我们提出了一种动态分层模型,用于任意时间场景解析,通过学习一系列适应于图像的分层模型,可以在特定测试时间预算内优化模型性能,并展示了该方法在三个语义分割数据集上的优势。
Aug, 2016