Mar, 2020

使用大词汇表探索长尾视觉关系识别

TL;DR本文是对 Long-Tail Visual Relationship Recognition(LTVRR)任务的第一次大规模研究。通过引入 VG8K-LT 和 GQA-LT 等基于 Visual Genome 和 GQA 数据集的相关基准,研究了几种使用最先进的长尾模型在 LTVRR 设置中的性能。最后,介绍了一种 VilHub 损失和一种 RelMix 增强技术,能够显著提高性能,尤其是尾部类别。