Dec, 2023

Alpha-CLIP:聚焦于您想要的地方的 CLIP 模型

TL;DRAlpha-CLIP 是 CLIP 的一个增强版本,通过辅助的 alpha 通道来建议注意力集中的区域,并基于构建的 RGBA 区域 - 文本对进行微调。Alpha-CLIP 不仅保留了 CLIP 的视觉识别能力,还能精确控制图像内容的强调,具有在各种任务中展现有效性的强大潜力,包括但不限于开放世界识别、多模态大语言模型和条件 2D / 3D 生成。