Jul, 2023

ClipSitu:在情境识别中有效地利用CLIP进行条件预测

TL;DR本文利用CLIP 模型的图像语言描述学习了图像的上下文,在情况识别任务中深度和宽度的多层感知器块可获得显着结果,设计的基于交叉注意力的Transformer模型ClipSitu XTF,在imSitu数据集的语义角色标注任务上的准确率优于最先进的模型14.1%。