利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别

May, 2019

利用两流深度三维卷积神经网络学习空间 - 时间特征进行唇语识别

Learning Spatio-Temporal Features with Two-Stream Deep 3D CNNs for Lipreading

Xinshuo Weng, Kris Kitani

TL;DR本研究探讨利用 3D CNN 和光流输入的深度学习模型提高视频字幕的准确性，并证明采用光流输入单独或与灰度视频输入一起能进一步提高性能，在 LRW 数据集上实现了 5.3% 的绝对改进。

Abstract

We focus on the word-level visual lipreading, which requires recognizing the word being spoken, given only the video but not the audio. State-of-the-art methods explore the use of end-to-end neural networks, including a shallow (up to three layers) 3D convolutional neural network (CNN)

visual lipreading 3d cnns optical flow lrw dataset bi-lstm

发现论文，激发创造

视频分类的高效双流动态和外观 3D 卷积神经网络

本研究提出基于 3D 卷积神经网络的新型深度学习模型，可以更快速和准确地进行动作和运动表示，进一步整合光流特征从而获得更准确的结果。

Aug, 2016

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017

D3D: 视频动作识别的精简三维网络

该论文研究了使用 3D CNNs 进行动作识别时，使用两个网络（时空流和时间流）的效果，并发现在时间流中存在动作表示，但其在时空流中缺失；另外也展示了如何通过引入蒸馏方法，将时空流中缺失的动作信息膨胀输出，进而提高 3D CNNs 的准确率。

Dec, 2018

基于浅层三重流的三维卷积神经网络（STSTNet）用于微表情识别

本文介绍了一种名为 STSTNet 的深度神经网络，它从三个光流特征中学习以识别面部微表情，通过实验结果表明，该网络可以提高有效性并获得更高的精度。

Feb, 2019

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

使用 3D 残差网络学习时空特征用于动作识别

通过使用 Residual Networks 的 3D CNN，我们训练了一个视频动作识别模型，并实验表明在 Kinetics 数据集上它具有更好的性能，虽然参数很大但没有出现过拟合的问题

Aug, 2017

解读视频特征：3D 卷积网络和卷积 LSTM 网络的比较

探索了 3D 卷积网络和卷积 LSTM 网络在时空依赖帧中的特性，并通过将意义扰动引入时间维度的方式，确定了网络分类决策时最有意义的时间部分。研究发现，3D 卷积模型更关注较短的事件，并将其空间焦点放在较少的连续区域。

Feb, 2020

评估两流 CNN 用于视频分类

该论文以深度学习为基础，通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究，并在两个流行的视频分类基准测试中获得了竞争力极强的结果。

Apr, 2015

基于变形流的双流网络用于唇语识别

本文提出了一种基于变形流网络和双流网络的唇语识别方法，通过引入双向知识蒸馏损失函数让两个分支互相学习，实现了比单一分支更好的性能，并在两个大型唇语识别基准测试中获得了与最先进方法相媲美的结果。

Mar, 2020