Aug, 2023

SportsSloMo:以人为中心的视频帧插值的新基准和基线

TL;DR人类中心的视频帧插值在改善人们的娱乐体验和寻找商业应用方面具有巨大潜力,特别是在体育分析行业中,例如合成慢动作视频。为了填补这一空白,我们引入了SportsSloMo,一个由超过130,000个视频片段和1,000,000个高分辨率(≥720p)慢动作体育视频的视频帧组成的基准。我们在我们的基准上重新训练了几个最先进的方法,结果显示它们的准确性低于其他数据集。这凸显了我们的基准的难度,并表明即使对于表现最好的方法,它也存在重大挑战,因为人体高度可变形且体育视频中经常出现遮挡。为了提高准确性,我们引入了考虑人类感知先验的两个损失项,其中对全景分割和人体关键点检测进行了辅助监督。这些损失项与模型无关,并且可以轻松插入任何视频帧插值方法。实验结果验证了我们提出的损失项的有效性,在5个现有模型上实现了持续的性能改进,并在我们的基准上建立了强大的基线模型。数据集和代码可以在此URL找到。