一个基于主体中心镜头的镜头类型分类统一框架

Aug, 2020

一个基于主体中心镜头的镜头类型分类统一框架

A Unified Framework for Shot Type Classification Based on Subject Centric Lens

Anyi Rao, Jiaze Wang, Linning Xu, Xuekun Jiang, Qingqiu Huang...

TL;DR通过分离主体和背景，并分别对比它们的规模和运动类型，我们提出了Subject Guidance Network（SGNet）的学习框架，以识别视频镜头的类型。我们构建了一个庞大的数据集MovieShots，其中包含7K个电影预告片的46K个视角，用于促进镜头类型的分析和模型评估。实验证明，我们的方法能够准确地识别镜头的规模和运动类型，并胜过所有先前的方法。

Abstract

Shots are key narrative elements of various videos, e.g. movies, TV series, and user-generated videos that are thriving over the Internet. The types of shots greatly influence how the underlying ideas, emotions, and messages are expressed. The technique to analyze shot types is importa

发现论文，激发创造

通过分类遍历寻找适用于小样本学习的任务相关特征

本研究引入了一种可插拔的种类遍历模块，它通过遍历整个支持集来识别基于特征空间内部公共性和类间唯一性的任务相关特征，并提高了基于度量学习的少样本学习系统的性能。

May, 2019

Moviescope: 利用多种模态分析电影的大规模研究

本文旨在比较不同类型的视觉、音频、文本和基于元数据的特征对于预测电影的高层信息（如类型或预计预算）的有效性，并介绍了一个新的 Moviescope 数据集，该数据集包括 5000 部电影以及对应的预告片、海报、剧情和元数据。作者实证了在深度学习时代，基于内容的方法相对于基于人类和基于元数据的预测方法在该领域的有效性，并探究了表示视频和文本的时间特征聚合方法的有效性。此外，研究团队还展示了不同模态之间互补性的程度，并发现简单池化操作在该领域是有效的。

Aug, 2019

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的“挑战”测试集上获得了 59.4% 的准确度。

Sep, 2019

MovieNet: 电影理解的全面数据集

本文介绍了 MovieNet，这是一个综合数据集，包括 1100 部电影，大量多模态数据以及详尽的手动注释，可以被用于全面理解电影。

Jul, 2020

基于对比学习的快速自监督学习方法用于场景边界检测

本文提出一个自监督的ShotCoL方法，其利用类比学习学习镜头表示，用于发现场景边界和广告插入时间。(This paper proposes a self-supervised ShotCoL method that utilizes contrastive learning to obtain shot representation for detecting scene boundaries and ad insertion timestamps.)

Apr, 2021

Few-Shot视频分类的深入研究：新基准和基础线

本文旨在深入研究几种少量数据学习框架用于视频分类的方法，通过提出基于分类器的基线模型等贡献，发现现有的度量学习法存在的局限性，并发现新行动类别和ImageNet物体类别之间高度相关，最终提出了一个新的基准数据集以促进未来的少样本数据的视频分类研究，该代码将在指定网址上公开。

Oct, 2021

Movies2Scenes: 使用电影元数据学习场景表征

使用对电影的元数据进行对比学习，提出了一种学习通用场景表征的方法，并在多个基准数据集上验证了该方法的有效性，尤其是在 LVU 数据集中，平均改进了 7.9% 的分类任务和 9.7% 的回归任务。此外，还使用一个新收集的电影数据集，将该方法在一组视频广告任务上的表现与现有技术进行了比较。

Feb, 2022

少样本分类中的泛化思考

通过将输入样本分割成补丁，并借助Vision Transformers对其进行编码，从而在图像的局部区域之间建立语义对应关系，而不受其各自类别的影响。利用掩蔽图像建模等方法进行无监督训练，以克服标签不够精细以及避免负面的图像级注释影响，实现了对数据的更一般的统计结构的学习，并在四个流行的Few-shot分类基准测试中，对于5-shot和1-shot情形均取得了新的最优结果。

Jun, 2022

OS-MSL: 一阶段多模态序列链接框架用于场景分割和分类

本文提出了一种新颖的方式——预测镜头之间的链接，将场景分割和分类这两个任务融合成一个任务，同时引入了一个特定的模块——DiffCorrNet来明确提取镜头间的差异和相关性，通过广泛的实验，证明了这种方式确实有效。

Jul, 2022

AutoShot：短视频数据集和最新的镜头边缘检测技术

本研究通过提取853个完整的短视频和11,606个镜头注释，利用新数据财富，提出了一种名为AutoShot的方法，通过在包含各种先进的3D ConvNets和Transformer的搜索空间中进行神经架构搜索来优化短视频镜头分割的模型设计，并在新构建的SHOT数据集上对该方法进行了推导和评估，实现了比先前最先进方法更高的F1分数，也在ClipShots、BBC和RAI数据集上获得了更好的表现。

Apr, 2023