CLIPVQA:通过CLIP进行视频质量评估
在计算机视觉中,我们提出了一种用于自动评估野外采集视频质量的混合数据集训练策略,并探索了人类视觉系统的内容依赖性和时间记忆效应。实验结果表明,该模型在相对质量、感知质量和主观质量预测方面具有卓越性能,与现有最先进的模型相比,提高了VQA性能的成功率。
Nov, 2020
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
提出了一种新的质量保留采样方案Grid Mini-patch Sampling (GMS),并使用 Fragment Attention Network (FANet) 和新提出的FrAgment Sample Transformer for VQA (FAST-VQA) 实现了高效的端到端深度视频质量评估。
Jul, 2022
本论文提出一种名为Zoom-VQA的视频质量评估体系架构,将视频分为三个层次并整合了三个组件(patch attention module、frame pyramid alignment 和 clip ensemble strategy),以从不同层次感知时空特征。该方法在四个VQA基准测试中达到了最先进的结果,并在LSVQ的两个子集上优于以前的最佳结果。
Apr, 2023
提出了一种基于文本的语义相关质量评价方法(SAQI)及其本地化版本(SAQI-Local)。通过与现有低级指标结合,提出了统一盲视频质量指数(BVQI)及其改进版(BVQI-Local),并通过有效的微调方案,实现了优于普遍基于人类意见的VQA方法的性能和卓越的泛化能力。
Apr, 2023
本文讨论了在各种因素的干扰下,如何对自然视频的视频质量进行评估,构建了Maxwell数据库,并提出了MaxVQA,一种基于Vision-Language模型的视频质量评估方法。
May, 2023
本文提出了一种基于自注意力机制的Space-Time Attention网络用于解决视频质量评估问题,通过联合训练空间和时间注意力权重来解决Transformer中的数据饥饿问题,并在实际测试中证明了其优越性。
Jun, 2023
视频质量评估的挑战在于解决用户生成内容视频中存在的严重失真导致整体视觉质量下降的问题,提出了Visual Quality Transformer (VQT)方法,并通过实验证明了其优于其他方法的性能。
Jul, 2023
本论文介绍了一种新的视频质量评估方法CLiF-VQA,该方法考虑了与人类感受相关的特征和视频的空间特征,通过利用CLIP与人类感受之间的一致性,设计了多个客观和主观描述,提取与人类感受相关的特征。通过一个空间特征提取模块,还捕捉了视频的低级特征,并将这两种不同特征聚合以获得视频的质量评分。广泛的实验证明,所提出的CLiF-VQA在多个视频质量评估数据集上表现出色。
Nov, 2023
本研究解决了当前视频质量评估(VQA)算法在复杂空间和时间扭曲下面临的挑战。我们提出了首个大型多模态视频质量评估模型(LMM-VQA),通过将质量回归问题重新表述为问答任务,并设计时空视觉编码器来提取空间和时间特征,从而提高VQA的性能。实验结果表明,LMM-VQA在五个VQA基准测试中达到了最先进的性能,展现出5%的泛化能力提升。
Aug, 2024