CVPRFeb, 2020

视觉常识 R-CNN

TL;DR本论文提出了一种新颖的无监督特征表示学习方法:Visual Commonsense Region-based Convolutional Neural Network(VC R-CNN),用作改进的视觉区域编码器,适用于高级任务,例如字幕和 VQA。