基于知识增强的多角度视频表示学习,用于场景识别
该论文提出了一种基于多模式 CNN 的场景识别新方法,结合图像和上下文信息,通过注意力机制来强化学习和增强场景的辨别能力,实验证明该方法性能超过所有现有的先进方法,并显著减少了网络参数。
Sep, 2019
应用有限的解析注释,发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题,并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。
Dec, 2016
为了对电影进行语义理解,提出了一种局部到全局的场景分割框架,其中包含来自三个级别的多模态信息。通过预先训练 MovieScenes 数据集,该框架能够从长片的分层时间结构中提取复杂语义,提供自上而下的场景分割指导,并在实验中取得了高精度的场景分割表现。
Apr, 2020
我们提出了场景摘要作为一项新的基于视频的场景理解任务,旨在将一个长视频场景的漫游摘要为一小组在场景中空间多样的帧,它有许多重要的应用场景,如监视、房地产和机器人。我们提出的解决方案是一个由两个阶段组成的自监督流程,名为 SceneSum,第一阶段使用聚类来分割视频序列,结合视觉地点识别(VPR)促进空间多样性,而第二阶段需要从每个簇中选择一个代表性关键帧作为摘要,同时考虑到资源限制,如内存和磁盘空间的限制,另外,如果有基准图像轨迹可用,我们的方法可以轻松增强聚类和关键帧选择的监督损失。在真实世界和模拟数据集上进行的大量实验证明,我们的方法的性能超过了普通视频摘要基线的 50%。
Nov, 2023
本文研究跨视角视频理解的联合分析框架,将视角为中心的建议集成到场景为中心的解析图中,以表示跨视角场景的连贯场景为中心的理解,生成语义场景为中心的解析图。定量实验表明,解析图中的场景为中心的预测优于视角为中心的预测。
Sep, 2017
通过对视频的各种形式进行联合分析(包括视频帧、音频和任何附带文本),我们提出了一种学习紧凑的多模态特征表示形式的方法,证明了多模态表示是互补的,可以在提高许多应用性能中发挥关键作用。
Apr, 2020
提出了一种有效的自监督学习 (SSL) 框架,通过探索大量的数据增强和洗牌方法来提高模型的泛化能力,并引入一个简单的时间模型来验证镜头特征的质量,从而实现场景一致性。该方法在 Video Scene Segmentation 任务上取得了最先进的性能,并提出了更公平合理的评估方法。
May, 2022
公共空间 CCTV 安装的增长率导致了对自动化利用视频监控数据的方法的需求,包括场景理解、查询、行为注释和摘要。本文提出了一种分布式多场景全局理解的新框架,将监视场景按其解释彼此行为的能力进行聚类,并进一步发现每个聚类中共享与场景特定的活动的子集。在此基础上,我们展示了如何利用多场景结构化表示来改进常见的监控任务,包括场景活动理解、跨场景按示例查询、行为分类和视频摘要。
Jul, 2015
本研究介绍了一种从未标记的视频中进行无监督学习的新方法,通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体,并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。
Dec, 2016