通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案,本研究提出了一种通用且简单的框架,用于处理有限标记情况下的 3D 场景理解,从而在数据效率学习和开放世界少样本学习方面展现了有效性。
Dec, 2023
本文提出一种贝叶斯非参混合模型来表示场景信息,通过在线学习过程实现了实时更新场景信息,在不同数据规模下实现了动态调整,实验结果表明该方法具有较高准确率和良好的效率。
Mar, 2021
应用有限的解析注释,发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题,并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。
Dec, 2016
通过改进概率分类器的标签似然度和引入全局标签代价,本论文提出了一种非参数景观分析方法,提高了场景图像中前景类别的覆盖率和总体准确性,并在两个大型数据集上达到了最先进的性能。
Oct, 2015
本研究提出了一种名为 Hierarchical Long Short-Term Memory(H-LSTM)的循环神经网络模型,它包含两个耦合子网络,即 Pixel LSTM 和 Multi-scale Super-pixel LSTM,用于处理表面标记和关系预测,分别提供补充信息以利用分层场景上下文,联合优化以提高性能,并能在几何场景中解析场景几何结构,并且具有优秀的 3D 重建结果。
Apr, 2016
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
本论文提出了一种新的底部向上体系结构,以联合学习类别级人类语义分割和多人姿态估计来解决实例感知的人体部位解析的挑战任务。该框架利用不同人类细粒度上的结构信息,使人员分区的难度降低。通过将联合关联建模为最大权二分匹配,实现了可微分的解决方案,从而使我们的方法具有端到端的可训练性,并且允许将分组误差直接传播到多层次的人类表征学习中。
本文介绍了一种非参数方法,采用 “样本 - 筛选” 策略进行场景解析,通过图像相似性评分进行有标记的超像素抽样,并利用高效的过滤程序进行标签传输,从而使得更多有标记的样本得以应用。实验结果表明,该方法在两个基准数据集上的效果优于现有技术。
Nov, 2015
本文提出了一个新的模型来同时预测未来视频帧中的场景分析和光流估计。通过将场景分析和光流估计相结合,我们的模型在大规模数据集 Cityscapes 上显示出了显着更好的解析和运动预测结果。此外,我们还展示了我们的模型可以预测车辆的转向角度,从而进一步验证了我们的模型学习场景动态的潜在表示的能力。
Nov, 2017
在不需要训练标签和轮廓的情况下,通过连续的分层预测学习构建基于注意力的上下文特征,以学习在流媒体视频中本地化动作的鲁棒表示方法。