clip features | BriefGPT - AI 论文速递

关键词clip features

搜索结果 - 5

ICLROpenNeRF：使用像素级特征和渲染新视图的开放式 3D 神经场景分割
OpenNeRF 是一种在视觉 - 语言模型中自然地进行操作的方法，通过使用像素级的 VLM 特征，可以在不需要额外的 DINO 规范化的情况下实现更简化的架构，并在 3D 点云分割上优于近期的开放词汇方法，如 LERF 和 OpenSce
PDF3 months ago
ConRF: 基于辐射场的三维场景零翻译风格化
利用文本或视觉输入作为条件因素，本文旨在实现 3D 场景中的零样式条件下的控制式灵活化。我们介绍了一种新方法 ConRF，通过将 CLIP 特征空间映射到预训练 VGG 网络的样式空间并进一步将 CLIP 多模态知识转化为样式转换神经辐射场
PDF5 months ago
提升人工智能生成图像检测的水平与 CLIP
本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进
PDF7 months ago
ICLRISS: 文本引导下的图像跨越式 3D 形状生成
这篇论文提出了一种名为 Image as Stepping Stone (ISS) 的框架，通过两阶段特征空间对齐方法和文本指导的形状造型模块，实现了不需要成对文本 - 形状数据的通用三维形状生成，该方法表现更优越，生成的形状具有多样的纹理
PDF2 years ago
相互信息散度：多模态生成模型的统一度量
采用 CLIP 特征的负高斯交叉互信息度量被提出，用于评估 text-to-image generation 和 image captioning 任务的机器智能水平，与竞争指标相比具有一致性、样本简约性和鲁棒性，并在多模态表示学习中得到了
PDF2 years ago