Feb, 2025

AquaticCLIP:用于水下场景分析的视觉-语言基础模型

TL;DR本研究解决了水下场景理解中关于人工标注不足的问题,提出了一种名为AquaticCLIP的新型对比语言-图像预训练模型,专门用于水下场景分析。该模型通过构建一个200万对水下图像-文本配对数据集,利用无监督学习框架显著提升了多个水下计算机视觉任务的零样本性能,设定了水下环境中视觉-语言应用的新基准。