面向视频识别的时序关注协方差汇聚网络
该研究提出了一种适用于高维度、小样本场景的全局矩阵幂归一化协方差池化, 并引入了一个全局高斯嵌入网络来融合一阶统计信息。此方法在大规模对象分类、场景分类、细粒度视觉识别和纹理分类方面的实验表明,其优于现有的方法,并取得了最佳效果。
Apr, 2019
本研究探讨使用流形网络结构进行协方差池化对于人脸表情识别的改进,并且使用该方法在 Static Facial Expressions in the Wild(SFEW 2.0)和 Real-World Affective Faces(RAF)数据库上的准确率分别达到了 58.14% 和 87.0% 的最佳结果,同时这种池化方法也可用于视频人脸表情识别中。
May, 2018
提出了一种基于上下文感知的注意力池化(CAP)方法和特征编码技术,可以有效地捕获子像素梯度,无需边界框和 / 或可区分的部分注释,从而学习关键部位的特征表示。经过在六个最先进的骨干网络和八个基准数据集上的评估,该方法在六个数据集上表现显著优于最先进的方法,并且在其余两个数据集上非常有竞争力。
Jan, 2021
本研究提出一种新的架构,称为 “时间通道感知” 块 (TCA),它能够利用视频序列之间的时间关联,通过结合局部和全局上下文信息,提升特征表示的判别能力,实现更准确的人群计数等任务。实验证明,通过堆叠 TCA 块,所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。
Aug, 2019
该论文提出了一种新的网络结构,可以允许任意数量的帧作为网络输入,并采用编码层、时空金字塔池化层和特征拼接层解决了 CNN 在视频分类中帧数不定的问题,实验结果表明该方法在使用更少的训练数据时能超越同类方法。
Mar, 2015
我们探索用于视频手势识别的深度架构,其中包括时间卷积和双向递归,并展示循环在任务中的重要性,进而证明添加时间卷积会带来显著提高。我们在 Montalbano 手势识别数据集上评估了这些不同方法,并实现了最新的结果。
Jun, 2015
本文提出了一种基于卷积递归神经网络的时空关注池化层,用于学习判别性模式并抑制与声学场景分类无关的模式。实验证明该方法不仅优于强卷积神经网络基线,还在 LITIS Rouen 数据库上取得了新的最优性能。
Apr, 2019
我们提出了一种基于时间卷积网络和注意力机制的探索性架构称为 TCAN,它不仅能够实现递归网络的近似替代,还可以吸收前向模型的优势,提高了 word-level PTB、character-level PTB 和 WikiText-2 等文本数据集的 bpc/perplexity 表现.
Feb, 2020
本文旨在通过提出一种动态时间池化技术(DTP)来改善现有卷积神经网络分类器在时间序列分类中舍弃时间信息的问题。结合动态时间扭曲(DTW)和卷积神经网络,实现对高层特征的汇聚和提取,通过在多个单元上进行优化,显著提高了分类性能。
Apr, 2021
该论文介绍了一种新的框架 PSTA-TCN,该框架将并行时空关注机制与轴承温网络相结合,从而达到了更长的记忆,并且使用并行计算大大缩短了训练时间,可以更好地用于多元时间序列预测任务。
Mar, 2022