A3D：自适应 3D 网络用于视频动作识别

Nov, 2020

A3D：自适应 3D 网络用于视频动作识别

A3D: Adaptive 3D Networks for Video Action Recognition

Sijie Zhu, Taojiannan Yang, Matias Mendieta, Chen Chen

TL;DR本文提出了 A3D, 一种自适应 3D 网络，可以在一次训练后适应各种计算约束。通过权衡网络宽度和时空分辨率，生成良好的配置，而无需像网格搜索一样训练多个模型并且计算成本可以在部署后适应变量约束，例如在边缘设备中。在三个维度上相互训练可以显著提高自适应网络的性能。当采用多路径框架（例如 SlowFast）时，我们的自适应方法可以促进更好的路径折衷，并且在 Kinetics 数据集上的广泛实验证实了该方法的有效性，也验证了性能增益在数据集和任务之间的迁移能力。

Abstract

This paper presents a3d, an adaptive 3D network that can infer at a wide range of computational constraints with one-time training. Instead of training multiple models in a grid-search manner, it generates good c

a3d adaptive network computational constraints mutual training multi-pathway framework

发现论文，激发创造

2D 还是 3D? 自适应 3D 卷积选择用于高效视频识别

通过 Ada3D 条件计算框架，使用策略梯度方法和轻量级选择网络，实现对不同视频的实例特定 3D 使用策略的学习，以决定使用哪些帧和卷积层，从而实现对 3D 模型进行预测，即使在不同数据集上，也能够实现类似于现有 3D 模型的准确度，且需要的计算量减少了 20％-50％。

Dec, 2020

动作检测的结构化模型

本篇论文提出了一种增强标准 I3D 网络的算法，通过添加跟踪模块和图卷积网络结构，将领域知识融入模型，并在活动行为检测中获得了更好的结果表现。

Dec, 2018

AdaFocusV3: 统一的时空动态视频识别

本文探索在改进的 AdaFocusV3 框架上，统一时空动态计算的形式，通过在一些信息丰富的三维视频块上激活高性能网络以降低计算成本，并通过自适应轻量的策略网络在每个样本上根据测试时间的需求动态配置视频块数量，模型经过在 ActivityNet，FCVID，Mini-Kinetics，Something-Something V1&V2 和 Diving48 六个基准数据集上的广泛实验结果证明其显著比竞争算法更有效率。

Sep, 2022

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

扩展结构提高视频识别效率的 X3D

本文提出了 X3D，一个高效的视频网络家族，可沿多个网络轴（在空间、时间、宽度和深度方面）逐步扩展微小的 2D 图像分类架构。采用类似于机器学习中的特征选择方法的简单逐步网络扩展方法，在每个步骤中扩展单个轴，从而实现对于复杂性的良好准确性权衡。通过向前递推扩展和向后收缩，将 X3D 扩展到特定目标复杂性。与以前的工作相比，X3D 实现了最先进的性能，同时需要较少的乘加和参数。我们最令人惊讶的发现是，具有高空间时间分辨率的网络可以表现出色，同时在网络宽度和参数方面非常轻量化。我们在视频分类和检测基准测试上报告了具有竞争力的准确性，代码将可在此 https URL 上获得。

Apr, 2020

利用深度学习进行多媒体数据分类的智能 3D 网络协议

本文中介绍了一种基于 3D 卷积神经网络和 Spatiotemporal fusion 的混合深度学习架构，用于视频分类和动作识别，在研究方面取得了良好的性能，可以识别出 UCF101 数据集中的动作（准确率达到 95%）

Jul, 2022

快与猛：使用单个卷积神经网络进行实时端到端的三维检测、跟踪和运动预测

本文提出一种深度神经网络模型，可以在利用 3D 传感器获取的数据的基础上联合推理 3D 检测、跟踪和运动预测，该方法在鸟瞰图表示的 3D 世界上执行时空 3D 卷积，具有高效的特点，并在多个北美城市捕获的超大规模数据集上进行实验，结果显示该方法在性能上大幅领先于现有技术，而且多项任务仅需要 30 毫秒即可完成。

Dec, 2020

Act3D: 用于机器人操作的无限分辨率动作检测变压器

本文提出的 Manupulation 策略 Transformer Act3D，将 6DoF 关键点预测作为自适应空间计算的 3D 检测操作，取得 RLbench 操作测试中最佳效果。

Jun, 2023

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

时域三维卷积神经网络：视频分类的新架构和迁移学习

该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构，可以使视频分类和人类行为识别的准确性优于现有技术，并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。

Nov, 2017