TransNet:一种快速检测常见镜头转换的深度网络
提出了一种基于卷积神经网络的拍摄边界检测方法,实现了从像素到最终拍摄边界的端到端学习,该方法在处理视频时速度超过 120 倍实时,并取得了最先进的结果。
May, 2017
本研究介绍了一种基于卷积神经网络的 Shot boundary detection 技术,提出了一个新的数据集并进行了目前最大规模的评估,结果表明该技术在检测尖锐转换和渐进转换方面具有竞争力,在减轻复杂运算方面也优于现有技术。
May, 2017
本研究介绍了一种使用深度学习和 3D 卷积体系结构进行视频镜头转换检测的方法,其模型 TransNet V2 在公认的基准测试中取得了最先进的表现。
Aug, 2020
本研究通过提取 853 个完整的短视频和 11,606 个镜头注释,利用新数据财富,提出了一种名为 AutoShot 的方法,通过在包含各种先进的 3D ConvNets 和 Transformer 的搜索空间中进行神经架构搜索来优化短视频镜头分割的模型设计,并在新构建的 SHOT 数据集上对该方法进行了推导和评估,实现了比先前最先进方法更高的 F1 分数,也在 ClipShots、BBC 和 RAI 数据集上获得了更好的表现。
Apr, 2023
本研究利用结构化网络独立检测剪辑式和逐渐式转场,提供了一个智能框架,可以在实时速度下进行较优的视频分析,而其所建立的 ClipShots 数据包含了在不同情况下的丰富视频素材。
Aug, 2018
提出了一种基于空间通道交叉变换器网络(SCTransNet)的红外小目标检测方法,利用跨通道变换器块(SCTBs)以及长程跳跃连接来加强目标和背景之间的语义差异,有效地检测小尺度的红外目标。
Jan, 2024
本文提出一种通过学习镜头间距离度量来自动将广播视频划分为连贯场景的模型,并通过比较算法与最近提出的自动场景分割方法来展示其有效性。同时提出了一个改进的性能评估方法,旨在减少数值评估和预期结果之间的差距,并提出和发布一个新的基准数据集。
Oct, 2015
该研究提出了一种名为 TDNet 的时态分布网络,旨在实现快速准确的视频语义分割,该网络使用深度卷积神经网络从视频中提取特征,并通过逐帧分布的方式,引入了新颖的注意力传播模块和分组知识蒸馏损失函数,从而达到了较高的分割准确率和更低的延迟。
Apr, 2020
混合方法的时空动作检测在融合基于锚点和不基于锚点的方法上取得了显著性能,但仍然存在两个关键问题:蛮力融合和手工设计的锚点影响了混合方法的性能和实际应用,以及动作类别预测中大量的误报影响了检测性能。本文提出了一种新颖的边界离散和可靠分类网络(BDRC-Net),通过引入边界离散和可靠分类模块来解决上述问题。具体而言,边界离散模块(BDM)以边界离散的形式巧妙地融合了基于锚点和不基于锚点的方法,避免了传统混合方法所需的手工设计锚点。此外,可靠分类模块(RCM)预测可靠的动作类别以减少动作类别预测中的误报。在不同的基准测试上进行的大量实验证明,我们提出的方法与最先进的方法相比具有较好的性能。例如,在 THUMOS'14 上,BDRC-Net 的平均 mAP 达到了 68.6%,超过了先前最佳水平 1.5%。代码将在该链接处公开发布。
Oct, 2023
提出了一种基于改进的稠密嵌套注意力网络(IDNANet)的红外小目标检测方法,采用变压器架构并结合 Swine-transformer 进行特征提取,在稠密嵌套结构中引入 ACmix 注意力结构增强中间层特征,通过设计加权 Dice 二元交叉熵(WD-BCE)损失函数缓解前景 - 背景样本不平衡的负面影响。通过在公共数据集上的实验表明,该方法在检测概率(P_d)、误警率(F_a)和平均交集联合($mIoU$)等指标上优于其他最先进的方法,NUDT-SIRST 数据集上的 $mIoU$ 为 90.89,NUAA-SIRST 数据集上为 79.72。
Nov, 2023