ECCVNov, 2021

VL-LTR: 学习类别感知的视觉语言表示在长尾视觉识别中的应用

TL;DR本研究提出一种基于深度学习的视觉 - 语言长尾识别框架 (VL-LTR),并在图像文本双模态下解决了长尾数据识别问题,实验结果在 ImageNet-LT 数据集上表现优异,取得了 77.2% 的整体准确率,比之前最佳表现高出了 17 个百分点。