CVPRMar, 2020

通过语言条件滤波器调节自下而上和自上而下的视觉处理

TL;DR本文旨在探讨如何在涉及语言和视觉的多模态任务中最佳地整合语言和感知处理,并提出了使用语言来调节自下而上处理以及自上而下注意力的 U-Net 模型。 实验结果表明,使用语言控制自下而上的视觉处理可提高多任务的细分结果表现。