学习动态分层模型进行场景标注

ECCVAug, 2016

Learning Dynamic Hierarchical Models for Anytime Scene Labeling

Buyu Liu, Xuming He

TL;DR我们提出了一种动态分层模型，用于任意时间场景解析，通过学习一系列适应于图像的分层模型，可以在特定测试时间预算内优化模型性能，并展示了该方法在三个语义分割数据集上的优势。

Abstract

With increasing demand for efficient image and video analysis, test-time cost of scene parsing becomes critical for many large-scale or time-sensitive vision applications. We propose a dynamic hierarchical model

scene parsing dynamic hierarchical model anytime representation learning semantic segmentation datasets model performance

发现论文，激发创造

通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析

通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案，本研究提出了一种通用且简单的框架，用于处理有限标记情况下的 3D 场景理解，从而在数据效率学习和开放世界少样本学习方面展现了有效性。

Dec, 2023

概率和自适应场景表示的在线学习

本文提出一种贝叶斯非参混合模型来表示场景信息，通过在线学习过程实现了实时更新场景信息，在不同数据规模下实现了动态调整，实验结果表明该方法具有较高准确率和良好的效率。

Mar, 2021

基于预测特征学习的视频场景解析

应用有限的解析注释，发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题，并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。

Dec, 2016

利用广泛的类和场景级上下文进行图像解析

通过改进概率分类器的标签似然度和引入全局标签代价，本论文提出了一种非参数景观分析方法，提高了场景图像中前景类别的覆盖率和总体准确性，并在两个大型数据集上达到了最先进的性能。

Oct, 2015

层次 LSTM 几何场景解析

本研究提出了一种名为 Hierarchical Long Short-Term Memory（H-LSTM）的循环神经网络模型，它包含两个耦合子网络，即 Pixel LSTM 和 Multi-scale Super-pixel LSTM，用于处理表面标记和关系预测，分别提供补充信息以利用分层场景上下文，联合优化以提高性能，并能在几何场景中解析场景几何结构，并且具有优秀的 3D 重建结果。

Apr, 2016

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021

不同 iable 的多粒度人类表达式学习，针对实例感知的人类语义分割

本论文提出了一种新的底部向上体系结构，以联合学习类别级人类语义分割和多人姿态估计来解决实例感知的人体部位解析的挑战任务。该框架利用不同人类细粒度上的结构信息，使人员分区的难度降低。通过将联合关联建模为最大权二分匹配，实现了可微分的解决方案，从而使我们的方法具有端到端的可训练性，并且允许将分组误差直接传播到多层次的人类表征学习中。

Mar, 2021

通过高效滤波实现的非参数场景解析

本文介绍了一种非参数方法，采用 “样本 - 筛选” 策略进行场景解析，通过图像相似性评分进行有标记的超像素抽样，并利用高效的过滤程序进行标签传输，从而使得更多有标记的样本得以应用。实验结果表明，该方法在两个基准数据集上的效果优于现有技术。

Nov, 2015

预测未来场景解析和动态运动

本文提出了一个新的模型来同时预测未来视频帧中的场景分析和光流估计。通过将场景分析和光流估计相结合，我们的模型在大规模数据集 Cityscapes 上显示出了显着更好的解析和运动预测结果。此外，我们还展示了我们的模型可以预测车辆的转向角度，从而进一步验证了我们的模型学习场景动态的潜在表示的能力。

Nov, 2017

基于演员的流视频动作定位表示

在不需要训练标签和轮廓的情况下，通过连续的分层预测学习构建基于注意力的上下文特征，以学习在流媒体视频中本地化动作的鲁棒表示方法。

Apr, 2021