Dec, 2023

Alpha-CLIP:聚焦于您想要的地方的CLIP模型

TL;DRAlpha-CLIP是CLIP的一个增强版本,通过辅助的alpha通道来建议注意力集中的区域,并基于构建的RGBA区域-文本对进行微调。Alpha-CLIP不仅保留了CLIP的视觉识别能力,还能精确控制图像内容的强调,具有在各种任务中展现有效性的强大潜力,包括但不限于开放世界识别、多模态大语言模型和条件2D / 3D生成。