CLIPVQA:通过CLIP进行视频质量评估

Jul, 2024

CLIPVQA:Video Quality Assessment via CLIP

Fengchuang Xing, Mingjie Li, Yuan-Gen Wang, Guopu Zhu, Xiaochun Cao

TL;DR本文提出了一种基于CLIP的Transformer方法（CLIPVQA），用于视频质量评估（VQA）问题，该方法在充分利用质量语言描述和视频帧信息的基础上，实现了新的VQA性能，比现有的基准方法的泛化能力提高了37%。

Abstract

In learning vision-language representations from web-scale data, the contrastive language-image pre-training (clip) mechanism has demonstrated a remarkable performance in many vision tasks. However, its application to the widely studied →

发现论文，激发创造

混合数据集下野外视频的统一质量评估培训

在计算机视觉中，我们提出了一种用于自动评估野外采集视频质量的混合数据集训练策略，并探索了人类视觉系统的内容依赖性和时间记忆效应。实验结果表明，该模型在相对质量、感知质量和主观质量预测方面具有卓越性能，与现有最先进的模型相比，提高了VQA性能的成功率。

Nov, 2020

民主化对比语言-图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出CLIP-benchmark，对CLIP及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。

Mar, 2022

FAST-VQA: 基于片段采样的高效端到端视频质量评估

提出了一种新的质量保留采样方案Grid Mini-patch Sampling (GMS)，并使用 Fragment Attention Network (FANet) 和新提出的FrAgment Sample Transformer for VQA (FAST-VQA) 实现了高效的端到端深度视频质量评估。

Jul, 2022

Zoom-VQA: 基于块、帧和片段的视频质量评估

本论文提出一种名为Zoom-VQA的视频质量评估体系架构，将视频分为三个层次并整合了三个组件（patch attention module、frame pyramid alignment 和 clip ensemble strategy），以从不同层次感知时空特征。该方法在四个VQA基准测试中达到了最先进的结果，并在LSVQ的两个子集上优于以前的最佳结果。

Apr, 2023

面向野外视频质量评估的鲁棒性文本提示语义标准

提出了一种基于文本的语义相关质量评价方法(SAQI)及其本地化版本(SAQI-Local)。通过与现有低级指标结合，提出了统一盲视频质量指数(BVQI)及其改进版(BVQI-Local)，并通过有效的微调方案，实现了优于普遍基于人类意见的VQA方法的性能和卓越的泛化能力。

Apr, 2023

实现现场视频质量评估的可解释性方法：数据库和基于语言提示的方法

本文讨论了在各种因素的干扰下，如何对自然视频的视频质量进行评估，构建了Maxwell数据库，并提出了MaxVQA，一种基于Vision-Language模型的视频质量评估方法。

May, 2023

StarVQA+: 视频质量评估的时空注意共训练

本文提出了一种基于自注意力机制的Space-Time Attention网络用于解决视频质量评估问题，通过联合训练空间和时间注意力权重来解决Transformer中的数据饥饿问题，并在实际测试中证明了其优越性。

Jun, 2023

捕捉用户生成内容中共存的失真以进行无引用视频质量评估

视频质量评估的挑战在于解决用户生成内容视频中存在的严重失真导致整体视觉质量下降的问题，提出了Visual Quality Transformer (VQT)方法，并通过实验证明了其优于其他方法的性能。

Jul, 2023

CLiF-VQA：利用与人类情感相关的高级语义信息增强视频质量评估

本论文介绍了一种新的视频质量评估方法CLiF-VQA，该方法考虑了与人类感受相关的特征和视频的空间特征，通过利用CLIP与人类感受之间的一致性，设计了多个客观和主观描述，提取与人类感受相关的特征。通过一个空间特征提取模块，还捕捉了视频的低级特征，并将这两种不同特征聚合以获得视频的质量评分。广泛的实验证明，所提出的CLiF-VQA在多个视频质量评估数据集上表现出色。

Nov, 2023

利用大型多模态模型推进视频质量评估

本研究解决了当前视频质量评估(VQA)算法在复杂空间和时间扭曲下面临的挑战。我们提出了首个大型多模态视频质量评估模型(LMM-VQA)，通过将质量回归问题重新表述为问答任务，并设计时空视觉编码器来提取空间和时间特征，从而提高VQA的性能。实验结果表明，LMM-VQA在五个VQA基准测试中达到了最先进的性能，展现出5%的泛化能力提升。

Aug, 2024