TransNet V2: 一种有效的深度网络架构,用于快速拍摄转换检测
提出了一种深度学习框架T-CNN,该框架从视频中获取来自tubelets的时间和语境信息,用于物体检测,经证实,在ImageNet Large-Scale Visual Recognition Challenge 2015(ILSVRC2015)的提供数据的物体检测从视频(VID)任务中表现出色。
Apr, 2016
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
Aug, 2016
提出了一种名为T-CNN的端到端深度网络,用于进行视频中的行为检测,该网络通过3D卷积特征识别并定位行为,能够对修剪和未修剪视频中的行为进行分类和定位。
Mar, 2017
本论文提出了一种新的深度神经网络框架,称之为3D-RPN网络,能够在纯粹利用外观的情况下有效地编码动作的时间方面。这个模型是端到端可训练的,可以在单个步骤中联合优化动作定位和分类。在测试时,该网络预测了包含两个连续帧的微小管,而新算法则能够利用网络学习的时间编码来将它们组合成完整的动作管,计算时间减少了50%。实验结果证明,该模型在仅利用外观的情况下优于同类方法,在J-HMDB-21和UCF-101动作检测数据集上表现良好。
Apr, 2017
该研究论文提出了一种基于3D CNN和新颖的神经网络结构,可以使视频分类和人类行为识别的准确性优于现有技术,并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。
Nov, 2017
本研究利用结构化网络独立检测剪辑式和逐渐式转场,提供了一个智能框架,可以在实时速度下进行较优的视频分析,而其所建立的ClipShots数据包含了在不同情况下的丰富视频素材。
Aug, 2018
本文提出了一种简单的模块化卷积神经网络架构,采用膨胀卷积,仅在小的缩放帧上运行,并使用 TRECVID IACC.3 数据集的选定段随机生成的转换来进行训练,实现了在单个中等 GPU 上具有高于实时推断速度的 RAI 数据集上的最新结果。
Jun, 2019
本文介绍了一种新型的动态关注转换网络(MATNet),应用于零样本视频物体分割,它提供了一种利用运动信息加强时空物体表示的新方法。与典型的双流体系结构相比,该模型设计了一种称为动态注意转换(MAT)的不对称注意块,并提出了桥接网络来获得用于多级编码器特征的压缩、具有区分性和尺度敏感的表示,最终通过解码器实现物体的分割。通过对三个具有挑战性的公共基准数据集(DAVIS-16、FBMS和Youtube-Objects)进行了广泛的实验,发现该模型在性能上击败了现有技术。
Mar, 2020
通过将复杂的3D-CNN解构为2D-和1D-CNN,本文提出了一种简洁而多功能的端到端深度学习架构TransNet用于人体动作识别(HAR),通过与其他领域的预训练2D-CNN模型相结合,TransNet可以有效地提高效率和准确性,并在大量实验结果和与最先进的模型的比较中展示了其在HAR中相对于灵活性、模型复杂度、训练速度和分类准确性方面的优越性。
Sep, 2023