Jan, 2024

基于 Swin TransformerV2 和粗糙到精细策略的视频质量评估

TL;DR非参考视频质量评估中,通过引入经过多个图像质量评估数据集预训练的增强空间感知模块和轻量级的时域融合模块,本研究实现了使用 Swin Transformer V2 作为本地级别空间特征提取器,并通过一系列 Transformer 层融合这些多阶段表示。此外,还利用时域 Transformer 在视频中进行时空特征融合。为了适应不同比特率的压缩视频,我们采用粗到精的对比策略,以增强模型区分来自不同比特率视频的特征的能力。这是一篇扩展版的一页摘要。