ICCVJun, 2024

用显式的程序化知识引导视频预测

TL;DR我们提出了一种将领域的程序化知识集成到深度学习模型中的通用方法,并通过基于物体为中心的深度模型对视频预测进行应用,表明这比仅使用数据驱动模型能够获得更好的性能。我们开发了一种使潜在空间解缠结的架构,以利用集成的程序化知识,并建立了一个允许模型在潜在空间中通过视频预测的下游任务学习程序接口的设置。我们将其性能与最先进的数据驱动方法进行对比,并展示了纯数据驱动方法困难的问题可以通过使用领域知识来处理,从而提供了不仅仅是收集更多数据的替代方法。