Jul, 2023

使用 CLIP 的可学习提示改进了视觉关系预测

TL;DR本文介绍了基于 CLIP 的模型在预测物体关系方面的潜力及对 UVTransE 框架进行了优化,提出了 CLIP Representation Enhanced Predicate Estimation (CREPE) 方法,通过对三个边界框的文本表示进行对比训练,取得了 state-of-the-art 的预测成果。