DSANet:视频层面表征学习的动态片段聚合网络
该论文提出了一种具有多空间注意力机制的动态切换 - 注意力网络(DSAN),用于解决城市智能数据挖掘系统中的长期预测问题。通过在输入和输出之间显式测量关联性并应用自我注意来提取有价值的信息,并通过实现切换 - 注意力机制将输出直接连接到精制的输入来过滤无关噪声和减轻错误传播。在两个空间 - 时间预测任务上进行了广泛的实验,证明了 DSAN 在短期和长期预测中的卓越优势。
Jun, 2020
本文提出了一种名为动态采样网络(DSN)的新框架来提高视频中的动作识别效果,并增加推理时的效率。DSN 由采样模块和分类模块组成,其目标是学习一种采样策略,以即时选择保留哪些片段并使用这些选择的片段训练剪辑级分类器,从而实现基于这些选择的片段执行动作识别。通过基于四个行动识别数据集的广泛实验来研究 DSN 框架的不同方面,实验结果表明,仅使用不到一半的片段,DSN 能够大大提高推理效率,并仍然能够获得略微更好或相当的识别精度,达到了领先水平。
Jun, 2020
该研究提出了一种新型基于深度学习的视频超分辨率算法 DKSAN,该算法利用了新设计的变形卷积对齐和可形变内核空间注意力模块,更好地利用了时空冗余来促进不同层之间的信息传播,并在实验中展示了比现有技术 EDVR 更好的超分辨率效果。
Oct, 2020
对于语义分割的无监督域自适应(DAS)的研究已经很丰富,本文通过比较图像和视频领域的 DAS 方法在一系列基准数据集上的表现,发现了一些有趣的现象并开源了相应的代码库。
Feb, 2024
该研究提出了一种名为 TDNet 的时态分布网络,旨在实现快速准确的视频语义分割,该网络使用深度卷积神经网络从视频中提取特征,并通过逐帧分布的方式,引入了新颖的注意力传播模块和分组知识蒸馏损失函数,从而达到了较高的分割准确率和更低的延迟。
Apr, 2020
本文提出了一种新的视频动作识别框架 - TSN,并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明,本方法在 HMDB51(69.4%)和 UCF101(94.2%)数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型,定性展示了时间段网络和所提出良好实践的有效性。
Aug, 2016
该论文提出了一种 Recurrent Dynamic Embedding (RDE) 技术,利用 Spatio-temporal Aggregation Module (SAM) 来生成和更新一个大小固定的内存库,解决了长视频中硬件无法承受不断增加存储要求的问题。同时还加入一种无偏引导损失来增强 SAM 的鲁棒性,提出自我修正策略,使网络可以纠正内存库中具有不同质量的掩码嵌入,进而实现了在性能和速度之间的最佳平衡,并提供了相应的代码。
May, 2022
本文提出了 DVSNet 的动态视频分割网络设计,使用了卷积神经网络和决策网络技术,以提高语义分割效率和降低计算工作量。在 Cityscape 数据集上进行的实验结果表明,该网络最高可以达到 70.4% 的 mIoU。
Apr, 2018
弱监督视频异常检测中,提出了一种动态擦除网络(DE-Net),能够学习多尺度时空特征,处理异常事件时长变化并评估异常检测的完整性。该方法在 XD-Violence、TAD 和 UCF-Crime 三个数据集上表现良好。
Dec, 2023