CVPRNov, 2016

基于文本的图像检索的全面三维场景抽象生成

TL;DR使用物理关系模型,通过将虚构的抽象物体布局与文本描述中存在的空间约束相匹配来从文本描述中推断 3D 结构,并通过将对象检测输出与表示为边界框的 2D 布局候选项进行匹配来评定图像排序,从而检索与场景的文本描述相匹配的图像,其性能优于基于对象出现直方图和学习的 2D 成对关系的基线方法。