基于知识增强的多角度视频表示学习，用于场景识别

Jan, 2024

基于知识增强的多角度视频表示学习，用于场景识别

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition

Xuzheng Yu, Chen Jiang, Wei Zhang, Tian Gan, Linlin Chao...

TL;DR我们提出了一种新颖的双流框架，从多个角度（即时间和非时间角度）建模视频表示，并通过自蒸馏方式将两个角度融合在一起，在视频场景识别任务中自然引入知识。我们的实验结果表明，我们提出的方法是有效的。

Abstract

With the explosive growth of video data in real-world applications, a comprehensive representation of videos becomes increasingly important. In this paper, we address the problem of video scene recognition, whose goal is to learn a high-level →

video scene recognition video representation temporal and non-temporal perspectives knowledge-enhanced feature fusion end-to-end manner

发现论文，激发创造

深度视频表示学习综述

该论文提供了对视频表示学习的综述，对于顺序视觉数据的时空特征学习方法进行分类，并比较它们在视频分析中的优缺点。

May, 2024

语义感知场景识别

该论文提出了一种基于多模式 CNN 的场景识别新方法，结合图像和上下文信息，通过注意力机制来强化学习和增强场景的辨别能力，实验证明该方法性能超过所有现有的先进方法，并显著减少了网络参数。

Sep, 2019

基于预测特征学习的视频场景解析

应用有限的解析注释，发展了有效的表征学习方法来解决具有挑战性的视频场景解析问题，并提出了针对未标记视频数据的预测特征学习方法和针对场景解析任务的预测方向解析体系结构。

Dec, 2016

一种多模态电影场景分割的从局部到全局的方法

为了对电影进行语义理解，提出了一种局部到全局的场景分割框架，其中包含来自三个级别的多模态信息。通过预先训练 MovieScenes 数据集，该框架能够从长片的分层时间结构中提取复杂语义，提供自上而下的场景分割指导，并在实验中取得了高精度的场景分割表现。

Apr, 2020

场景摘要：将场景视频聚类为空间多样帧

我们提出了场景摘要作为一项新的基于视频的场景理解任务，旨在将一个长视频场景的漫游摘要为一小组在场景中空间多样的帧，它有许多重要的应用场景，如监视、房地产和机器人。我们提出的解决方案是一个由两个阶段组成的自监督流程，名为 SceneSum，第一阶段使用聚类来分割视频序列，结合视觉地点识别（VPR）促进空间多样性，而第二阶段需要从每个簇中选择一个代表性关键帧作为摘要，同时考虑到资源限制，如内存和磁盘空间的限制，另外，如果有基准图像轨迹可用，我们的方法可以轻松增强聚类和关键帧选择的监督损失。在真实世界和模拟数据集上进行的大量实验证明，我们的方法的性能超过了普通视频摘要基线的 50%。

Nov, 2023

基于场景的跨视角视频联合解析

本文研究跨视角视频理解的联合分析框架，将视角为中心的建议集成到场景为中心的解析图中，以表示跨视角场景的连贯场景为中心的理解，生成语义场景为中心的解析图。定量实验表明，解析图中的场景为中心的预测优于视角为中心的预测。

Sep, 2017

视频排序的深度多模态特征编码

通过对视频的各种形式进行联合分析（包括视频帧、音频和任何附带文本），我们提出了一种学习紧凑的多模态特征表示形式的方法，证明了多模态表示是互补的，可以在提高许多应用性能中发挥关键作用。

Apr, 2020

视频场景分割的场景一致性表示学习

提出了一种有效的自监督学习 (SSL) 框架，通过探索大量的数据增强和洗牌方法来提高模型的泛化能力，并引入一个简单的时间模型来验证镜头特征的质量，从而实现场景一致性。该方法在 Video Scene Segmentation 任务上取得了最先进的性能，并提出了更公平合理的评估方法。

May, 2022

多场景视频查询和概述的共享语义空间发现

公共空间 CCTV 安装的增长率导致了对自动化利用视频监控数据的方法的需求，包括场景理解、查询、行为注释和摘要。本文提出了一种分布式多场景全局理解的新框架，将监视场景按其解释彼此行为的能力进行聚类，并进一步发现每个聚类中共享与场景特定的活动的子集。在此基础上，我们展示了如何利用多场景结构化表示来改进常见的监控任务，包括场景活动理解、跨场景按示例查询、行为分类和视频摘要。

Jul, 2015

无标签视频中的物体中心表示学习

本研究介绍了一种从未标记的视频中进行无监督学习的新方法，通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体，并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。

Dec, 2016