TransNet V2: 一种有效的深度网络架构，用于快速拍摄转换检测

Aug, 2020

TransNet V2: 一种有效的深度网络架构，用于快速拍摄转换检测

TransNet V2: An effective deep network architecture for fast shot transition detection

Tomáš Souček, Jakub Lokoč

TL;DR本研究介绍了一种使用深度学习和3D卷积体系结构进行视频镜头转换检测的方法，其模型TransNet V2在公认的基准测试中取得了最先进的表现。

Abstract

Although automatic shot transition detection approaches are already investigated for more than two decades, an effective universal human-level model was not proposed yet. Even for common shot transitions like hard cuts or simple gradual changes, the potential diversity of analyzed vide

发现论文，激发创造

T-CNN：基于卷积神经网络的视频目标检测管道

提出了一种深度学习框架T-CNN，该框架从视频中获取来自tubelets的时间和语境信息，用于物体检测，经证实，在ImageNet Large-Scale Visual Recognition Challenge 2015（ILSVRC2015）的提供数据的物体检测从视频（VID）任务中表现出色。

Apr, 2016

时序卷积网络：行动分割的统一方法

提出了一种统一的时间卷积网络方法，可以逐层捕捉低、中、高层次时间尺度上的关系，在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能，并且可以在较短时间内训练完成。

Aug, 2016

用于动作分割和检测的时序卷积网络

介绍了一种新的 Temporal Convolutional Networks模型，可用于对视频中动作的细粒度分割和检测，具有高效性和良好的表现。

Nov, 2016

视频中动作检测的管状卷积神经网络(T-CNN)

提出了一种名为T-CNN的端到端深度网络，用于进行视频中的行为检测，该网络通过3D卷积特征识别并定位行为，能够对修剪和未修剪视频中的行为进行分类和定位。

Mar, 2017

AMTnet：端到端可训练深度架构的动作-微管回归

本论文提出了一种新的深度神经网络框架，称之为3D-RPN网络，能够在纯粹利用外观的情况下有效地编码动作的时间方面。这个模型是端到端可训练的，可以在单个步骤中联合优化动作定位和分类。在测试时，该网络预测了包含两个连续帧的微小管，而新算法则能够利用网络学习的时间编码来将它们组合成完整的动作管，计算时间减少了50%。实验结果证明，该模型在仅利用外观的情况下优于同类方法，在J-HMDB-21和UCF-101动作检测数据集上表现良好。

Apr, 2017

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于3D CNN和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017

深度结构模型实现快速视频镜头切换定位

本研究利用结构化网络独立检测剪辑式和逐渐式转场，提供了一个智能框架，可以在实时速度下进行较优的视频分析，而其所建立的ClipShots数据包含了在不同情况下的丰富视频素材。

Aug, 2018

TransNet：一种快速检测常见镜头转换的深度网络

本文提出了一种简单的模块化卷积神经网络架构，采用膨胀卷积，仅在小的缩放帧上运行，并使用 TRECVID IACC.3 数据集的选定段随机生成的转换来进行训练，实现了在单个中等 GPU 上具有高于实时推断速度的 RAI 数据集上的最新结果。

Jun, 2019

零样本视频物体分割的运动关注转换

本文介绍了一种新型的动态关注转换网络（MATNet），应用于零样本视频物体分割，它提供了一种利用运动信息加强时空物体表示的新方法。与典型的双流体系结构相比，该模型设计了一种称为动态注意转换（MAT）的不对称注意块，并提出了桥接网络来获得用于多级编码器特征的压缩、具有区分性和尺度敏感的表示，最终通过解码器实现物体的分割。通过对三个具有挑战性的公共基准数据集（DAVIS-16、FBMS和Youtube-Objects）进行了广泛的实验，发现该模型在性能上击败了现有技术。

Mar, 2020

TransNet：基于迁移学习的网络人体动作识别

通过将复杂的3D-CNN解构为2D-和1D-CNN，本文提出了一种简洁而多功能的端到端深度学习架构TransNet用于人体动作识别（HAR），通过与其他领域的预训练2D-CNN模型相结合，TransNet可以有效地提高效率和准确性，并在大量实验结果和与最先进的模型的比较中展示了其在HAR中相对于灵活性、模型复杂度、训练速度和分类准确性方面的优越性。

Sep, 2023