基于场景的跨视角视频联合解析
本文提出了一种视频和文本联合解析的框架,通过使用基于空间、时间和因果关系的 And-Or 图对视频和文本的信息进行深层语义解析,旨在推动生成叙述性文本描述和问答等应用。其中,视频解析、文本解析和联合推理三个模块组成了该联合解析系统,通过匹配、推断和修改来产生联合解析图,进一步提高了查询准确性。
Aug, 2013
为了提高机器人感知周围环境的能力,本研究提出了一种名为 Cross-view Semantic Segmentation 的视觉任务并推出了 View Parsing Network(VPN)框架来解决该任务,该任务能够将第一视角的观测数据转化为顶视图的物体语义分割图,表示出所有物体在像素层级的空间位置。通过在 3D 图形环境中训练 VPN 并使用域自适应技术将其转移到处理现实环境的数据,本研究证明了在实验中,VPN 显著提高了机器人理解空间信息的能力。
Jun, 2019
应用有限的解析注释,发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题,并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。
Dec, 2016
这篇论文研究了一项名为统一感知分析的新任务,通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念,最后在自然场景中应用训练网络来发现视觉知识。
Jul, 2018
我们提出了一种新颖的双流框架,从多个角度(即时间和非时间角度)建模视频表示,并通过自蒸馏方式将两个角度融合在一起,在视频场景识别任务中自然引入知识。我们的实验结果表明,我们提出的方法是有效的。
Jan, 2024
该研究提出一种新的 3D 全局场景理解问题,旨在同时解决物体检测和重建、人体姿态估计,并利用人物 - 物体交互和物理常识优化场景的表现,最后使用马尔可夫蒙特卡罗方法,显著提高了算法的性能。
Sep, 2019
本文提出了基于参数化和非参数化模型的全局语境信息来进行场景解析,使用场景相似性训练上下文网络生成特征表示来生成空间和全局先验知识,然后将这些特征表示和先验知识嵌入到分割网络作为额外的全局上下文提示。实验表明该方法可以消除与全局上下文表示不兼容的误报,且在 MIT ADE20K 和 PASCAL Context 数据集上表现良好。
Oct, 2017
本文提出了一个新的模型来同时预测未来视频帧中的场景分析和光流估计。通过将场景分析和光流估计相结合,我们的模型在大规模数据集 Cityscapes 上显示出了显着更好的解析和运动预测结果。此外,我们还展示了我们的模型可以预测车辆的转向角度,从而进一步验证了我们的模型学习场景动态的潜在表示的能力。
Nov, 2017
本文介绍了一种通过神经依赖解析器直接从文本描述中解析出场景图来实现端到端训练的方法,并在评估数据集上比以往方法高出 5%的 F - 分数相似度来生成了我们学习的神经依赖解析器产生的场景图。
Mar, 2018
本文提出了一种用视觉和语言线索联合生成模型实现的,可以无监督地将视频解析成语义步骤的方法,该方法可以为视频片段提供语义 “故事情节” 和文字描述,并在大量复杂的 YouTube 视频上进行了评估。
Jun, 2015