C3DVQA:基于三维卷积神经网络的全参考视频质量评估
本文提出了一种简单有效的 UGC 视频质量评估模型,通过训练端到端的空间特征提取网络直接从视频帧像素中学习感知质量的空间特征表示,并提取运动特征来度量空间特征无法建模的时间相关失真。
Apr, 2022
本研究提出一种新的架构,称为 “时间通道感知” 块 (TCA),它能够利用视频序列之间的时间关联,通过结合局部和全局上下文信息,提升特征表示的判别能力,实现更准确的人群计数等任务。实验证明,通过堆叠 TCA 块,所得到的改进的 3D 卷积神经网络 (E3D) 在多个基准数据集上具有优异的性能。
Aug, 2019
通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。
Dec, 2014
本论文提出一种名为 Zoom-VQA 的视频质量评估体系架构,将视频分为三个层次并整合了三个组件(patch attention module、frame pyramid alignment 和 clip ensemble strategy),以从不同层次感知时空特征。该方法在四个 VQA 基准测试中达到了最先进的结果,并在 LSVQ 的两个子集上优于以前的最佳结果。
Apr, 2023
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
该研究论文提出了一种基于 3D CNN 和新颖的神经网络结构,可以使视频分类和人类行为识别的准确性优于现有技术,并通过迁移学习的技巧从二维卷积神经网络中转移知识来改善三维卷积神经网络的训练效果。
Nov, 2017
本文提出了一种模块化的神经架构,特别针对 VQA 任务中的卷积神经网络模块,通过网络的稀疏性提高了模型的运行效率,实验表明其可与传统的 CNN VQA 模型相媲美。
Sep, 2019
本文提出了一种新颖的神经操作,通过在三个正交视图上进行 2D 卷积,协同编码了时空特征,并通过权值共享来促进空间和时间特征的学习,此方法在大规模基准测试中取得了最优性能,并通过对不同视图学习的系数进行量化,探讨了空间和时间特征的贡献,以提高模型的解释性并指导视频识别算法的设计。
Mar, 2019
本文提出了一种基于深度神经网络的图像质量评估方法,通过数据驱动的方式完成特征提取、回归等过程,与现有的图像质量评估方法相比,在全参考和无参考情况下表现都更好,且不依赖手工特征或人眼视觉系统和图像统计学知识。
Dec, 2016