DSANet：视频层面表征学习的动态片段聚合网络

MMMay, 2021

DSANet：视频层面表征学习的动态片段聚合网络

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning

Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He...

TL;DR本文介绍了一种新颖的动态分段聚合（DSA）模块，该模块通过可调式地减少卷积操作来聚合相邻片段的长时程信息，结合 TSM、I3D 等开箱即用的基于剪辑的模型，提供了一种高效且具有优越性能的视频识别 DSANet 架构。

Abstract

Long-range and short-range temporal modeling are two complementary and crucial aspects of video recognition. Most of the state-of-the-arts focus on short-range spatio-→

temporal modeling video recognition dynamic segment aggregation long-range modeling video architecture

发现论文，激发创造

保持动态关注力的长期时空预测

该论文提出了一种具有多空间注意力机制的动态切换 - 注意力网络（DSAN），用于解决城市智能数据挖掘系统中的长期预测问题。通过在输入和输出之间显式测量关联性并应用自我注意来提取有价值的信息，并通过实现切换 - 注意力机制将输出直接连接到精制的输入来过滤无关噪声和减轻错误传播。在两个空间 - 时间预测任务上进行了广泛的实验，证明了 DSAN 在短期和长期预测中的卓越优势。

Jun, 2020

视频中的动作识别时间分段网络

该论文提出了一种称之为 “时间段网络” 的视频级框架，可以学习视频中的动作模型，并在四个具有挑战性的动作识别基准测试中实现了最新的性能。

May, 2017

动态采样网络用于视频中高效的动作识别

本文提出了一种名为动态采样网络（DSN）的新框架来提高视频中的动作识别效果，并增加推理时的效率。DSN 由采样模块和分类模块组成，其目标是学习一种采样策略，以即时选择保留哪些片段并使用这些选择的片段训练剪辑级分类器，从而实现基于这些选择的片段执行动作识别。通过基于四个行动识别数据集的广泛实验来研究 DSN 框架的不同方面，实验结果表明，仅使用不到一半的片段，DSN 能够大大提高推理效率，并仍然能够获得略微更好或相当的识别精度，达到了领先水平。

Jun, 2020

变形核卷积网络用于视频极高清晰重建

该研究提出了一种新型基于深度学习的视频超分辨率算法 DKSAN，该算法利用了新设计的变形卷积对齐和可形变内核空间注意力模块，更好地利用了时空冗余来促进不同层之间的信息传播，并在实验中展示了比现有技术 EDVR 更好的超分辨率效果。

Oct, 2020

提高视频利用效率：一种更新的领域自适应视频分割基线

对于语义分割的无监督域自适应（DAS）的研究已经很丰富，本文通过比较图像和视频领域的 DAS 方法在一系列基准数据集上的表现，发现了一些有趣的现象并开源了相应的代码库。

Feb, 2024

快速视频语义分割的时态分布网络

该研究提出了一种名为 TDNet 的时态分布网络，旨在实现快速准确的视频语义分割，该网络使用深度卷积神经网络从视频中提取特征，并通过逐帧分布的方式，引入了新颖的注意力传播模块和分组知识蒸馏损失函数，从而达到了较高的分割准确率和更低的延迟。

Apr, 2020

时序段网络：深度动作识别的良好实践

本文提出了一种新的视频动作识别框架 - TSN，并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明，本方法在 HMDB51（69.4%）和 UCF101（94.2%）数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型，定性展示了时间段网络和所提出良好实践的有效性。

Aug, 2016

视频目标分割的循环动态嵌入

该论文提出了一种 Recurrent Dynamic Embedding (RDE) 技术，利用 Spatio-temporal Aggregation Module (SAM) 来生成和更新一个大小固定的内存库，解决了长视频中硬件无法承受不断增加存储要求的问题。同时还加入一种无偏引导损失来增强 SAM 的鲁棒性，提出自我修正策略，使网络可以纠正内存库中具有不同质量的掩码嵌入，进而实现了在性能和速度之间的最佳平衡，并提供了相应的代码。

May, 2022

动态视频分割网络

本文提出了 DVSNet 的动态视频分割网络设计，使用了卷积神经网络和决策网络技术，以提高语义分割效率和降低计算工作量。在 Cityscape 数据集上进行的实验结果表明，该网络最高可以达到 70.4% 的 mIoU。

Apr, 2018

基于多尺度时域特征的动态擦除网络用于弱监督视频异常检测

弱监督视频异常检测中，提出了一种动态擦除网络（DE-Net），能够学习多尺度时空特征，处理异常事件时长变化并评估异常检测的完整性。该方法在 XD-Violence、TAD 和 UCF-Crime 三个数据集上表现良好。

Dec, 2023