Aug, 2024

利用大型多模态模型推进视频质量评估

TL;DR本研究解决了当前视频质量评估(VQA)算法在复杂空间和时间扭曲下面临的挑战。我们提出了首个大型多模态视频质量评估模型(LMM-VQA),通过将质量回归问题重新表述为问答任务,并设计时空视觉编码器来提取空间和时间特征,从而提高VQA的性能。实验结果表明,LMM-VQA在五个VQA基准测试中达到了最先进的性能,展现出5%的泛化能力提升。