CVPRApr, 2022

场景三部曲:论人类场景素描及其与照片和文本的互补性

TL;DR本文将场景理解扩展到包括人体素描,提出了一种基于灵活联合嵌入的场景表示,支持多种模态和任务,可适应多个场景相关任务。