质量门控卷积 LSTM 用于增强压缩视频
本文提出了一种基于 ConvLSTM 的深度神经网络,称为非局部 ConvLSTM,以解决通过利用多个连续帧来降低视频压缩失真的问题,并在两个数据集上验证了其性能优于现有方法。
Oct, 2019
本文介绍一种 Multi-Frame Quality Enhancement 的方法,采用 Bidirectional Long Short-Term Memory 去定位 Peak Quality Frames,并设计了一种 Convolutional Neural Network 去提高视频质量。
Feb, 2019
通过学习能够识别视频中异常事件的生成模型,我们提出了结合卷积 LSTM 的网络,利用少量的监督来预测视频序列的演变,从预测的一组重建误差中获取规则分数,证明使用 Conv-LSTM 单元对建模和预测视频序列是一种有效的工具。
Dec, 2016
本文提出了一个基于深度学习神经网络的方法来自动识别监控视频中的暴力行为,具有很高的识别精度。该方法采用卷积神经网络和长短时记忆网络,能够捕捉到视频中局部的时空特征,实现对局部运动的分析,并通过对相邻帧的差异计算来增强所提出方法的识别功能。实验证明,该方法表现优于现有的同类方法,具有广泛的研究价值。
Sep, 2017
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
Aug, 2017
本文基于 YouTube-8M 大规模数据集,提出了三种视频分类模型,分别基于帧池化和 LSTM 网络,第三个模型使用 Experts 混合中间层以增加模型容量,并进行了一系列处理不平衡训练数据的实验。
Jun, 2017
本文提出了一种分层学习视频压缩(HLVC)方法,其具有三个分层质量层和一种重复增强网络。我们通过一种图像压缩方法压缩第一层帧,并使用这些帧作为参考来压缩相对高质量的第二层。然后,使用提出的单运动深度压缩(SMDC)网络压缩具有最低质量的第三层。在我们的 HLVC 方法中,分层质量有助于编解码效率,并且最终结果在 PSNR 和 MS-SSIM 方面优于 x265 的 “低延迟 P(LDP)非常快” 模式。
Mar, 2020
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016