Feb, 2023

Paparazzi:深入探究语言和视觉模型在观点描述中的能力

TL;DR本论文研究了CLIP模型在3D环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。