Feb, 2023

Paparazzi:深入探究语言和视觉模型在观点描述中的能力

TL;DR本论文研究了 CLIP 模型在 3D 环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。