利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别
本文提出一种基于 LSTM 网络的端到端视觉语音识别系统,同时学习从像素直接提取特征和分类,取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM(BLSTM)融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7%,在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5%。
Jan, 2017
本研究提出使用双向长短时记忆(BLSTM)网络的多视角口型识别系统,在直接从不同口型图像姿势中提取特征的基础上,同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试,最佳三种视角模型较现有多视图最新性能提高 10.5%,最大分类精度为 96.9%。
Sep, 2017
该论文研究了使用 3D CNNs 进行动作识别时,使用两个网络(时空流和时间流)的效果,并发现在时间流中存在动作表示,但其在时空流中缺失;另外也展示了如何通过引入蒸馏方法,将时空流中缺失的动作信息膨胀输出,进而提高 3D CNNs 的准确率。
Dec, 2018
本文介绍了一种名为 STSTNet 的深度神经网络,它从三个光流特征中学习以识别面部微表情,通过实验结果表明,该网络可以提高有效性并获得更高的精度。
Feb, 2019
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
通过使用 Residual Networks 的 3D CNN,我们训练了一个视频动作识别模型,并实验表明在 Kinetics 数据集上它具有更好的性能,虽然参数很大但没有出现过拟合的问题
Aug, 2017
探索了 3D 卷积网络和卷积 LSTM 网络在时空依赖帧中的特性,并通过将意义扰动引入时间维度的方式,确定了网络分类决策时最有意义的时间部分。研究发现,3D 卷积模型更关注较短的事件,并将其空间焦点放在较少的连续区域。
Feb, 2020
该论文以深度学习为基础,通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究,并在两个流行的视频分类基准测试中获得了竞争力极强的结果。
Apr, 2015
本文提出了一种基于变形流网络和双流网络的唇语识别方法,通过引入双向知识蒸馏损失函数让两个分支互相学习,实现了比单一分支更好的性能,并在两个大型唇语识别基准测试中获得了与最先进方法相媲美的结果。
Mar, 2020