本文提出了一种名为 FstCN 的新型 3D 深度架构,能够有效处理人类行为三维动态序列信号,并且利用转换和排列操作,将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程,同时提出了基于视频片段采样的有效训练和推断策略,在 UCF-101 和 HMDB-51 数据集上的表现比传统 CNN 方法更好,与最近一种利用辅助训练视频的方法相当。
Oct, 2015
本研究提出了一种多尺度空间图卷积和多尺度时间图卷积模型,通过分解相应的局部图卷积为一系列子图卷积,形成一个分层残差体系结构,使图卷积神经网络能够捕获空间和时间域中的短程和长程依赖关系,从而实现骨骼动作识别,该模型在三个基准数据集上表现出了显著的性能。
Jun, 2022
本文提出了一种名为 G3D 的统一的空时图卷积算子方法和一种简单的多尺度图卷积方法,用于在神经网络中捕捉图像、模型人体动态的长程、多级别、空时依赖模型关系,以此提高特征抽取器效果,实验结果表明,该算法在三个大规模数据集上优于目前最先进的方法。
Mar, 2020
本文提出了一种基于 RGB 和深度视频序列的空间与时间信息互补建模方法,采用卷积二流一致投票网络(2SCVN)和 3D 深度显著性 ConvNet 流(3DDSN)的并行聚合结构,极大提高了细微运动特征的识别准确性,结果在 Chalearn IsoGD 基准测试中优于领先者 10.29%,在 RGBD-HuDaAct 数据集上取得了最佳效果(96.74%),同时进行了定量实验和定性分析。
Nov, 2016
本文提出了一种称为 Spatio-Temporal Graph Convolution (STGC) 的方法,用于动作识别中的骨架,该方法组合了本地卷积过滤器的成功和自回归移动平均的序列学习能力,通过递归地进行多尺度局部图卷积过滤器构建。实验表明 STGC 模型的有效性和优于现有技术的改进。
Feb, 2018
该论文提出了一种基于动态时空特化的模块,通过特定神经元的专业化设计实现 fine-grained 行为识别,并使用特化优化算法进一步优化架构,以适应视频中广泛的时空变化,取得了最先进的性能表现。
Sep, 2022
本文提出了一种基于神经结构搜索的方法来进行 RGB-D 手势识别,该方法包括增强临时表示和优化多采样速率分支与侧向连接,实现了 RGB 和深度模态间和它们的时间动态之间关系的全面探究,并且在三个基准数据集上进行的全面实验证明了其在单 / 多模态设置下的最先进表现。
Aug, 2020
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
本文提出了一种灵活的注意力模块 CVSTA,可以提高时空关节的判别能力,进而构建了一种多维精细化的图卷积网络 MDR-GCN,加之结合了鲁棒分离损失函数 RDL,成功地提升了骨架动作识别的准确率。
Jun, 2023
该研究提出了一种基于骨架的动作识别框架,利用空间 - 时间梯度来聚焦相关的空间 - 时间特征,并利用可学习的梯度增强和实例依赖邻接矩阵建立高阶空间 - 时间动态模型,并通过基于梯度的空间 - 时间注意力来指导分类器去关注何时以及何处,以优化堆叠的 STF 模块,该方法在几个数据集上呈现出具有竞争力的结果。
Feb, 2022