Sep, 2023

STUPD: 用于空间和时间关系推理的合成数据集

TL;DR提出了 Spatial and Temporal Understanding of Prepositions Dataset (STUPD) - 一个用于理解静态和动态空间关系的大规模视频数据集,旨在帮助模型在真实世界场景中更好地进行视觉关系检测。在该数据集中,我们提供了关于对象交互的 3D 信息,包括逐帧坐标和对象的描述。通过在 STUPD 数据集上进行预训练,与其他预训练数据集相比,在 2 个真实世界数据集(ImageNet-VidVRD 和 Spatial Senses)上展示了各种模型性能的提升。