CVPRJun, 2022

简明至上:基于 CLIP 特征的线性层作为强大的 VizWiz 模型

TL;DR该研究提出了一种基于 CLIP 的体系结构,通过将图像和文本编码器的拼接特征上应用简单的线性分类器,并在训练期间添加一项辅助损失,以操作答案类型,并将其作为答案类选择的注意力门,成功解决了多模态任务体系结构高复杂度、难以训练、计算资源要求高的问题,在 VizWiz 2022 视觉问答挑战赛上取得了 60.15%的准确率和 83.78%的平均精度分数。