ECCVMar, 2024

文本到视频质量评估的主观对齐数据集和度量

TL;DR利用 Transformer 模型从文本视频对齐和视频保真度的角度提取特征,并利用大型语言模型的能力给出预测评分,该模型优于现有的 T2V 度量和 SOTA 视频质量评估模型,能够给出主观对齐的预测评价。