Dec, 2021

基于部件的概念、关系和物理推理的基准测试:PTR

TL;DR介绍一份新的大规模诊断视觉推理数据集PTR,包含约70k的RGBD合成图像与人工生成的70k个问题,并包含语义实例分割、颜色属性、空间几何关系和物理属性的注释。通过在该数据集上测试现有的视觉推理模型,发现这些模型在细粒度概念、丰富的几何关系和更复杂的物理等方面仍存在错误,此数据集将打开基于部分的推理的新机遇。