BriefGPT.xyz
Ask
alpha
关键词
clip features
搜索结果 - 5
ICLR
OpenNeRF:使用像素级特征和渲染新视图的开放式 3D 神经场景分割
OpenNeRF 是一种在视觉 - 语言模型中自然地进行操作的方法,通过使用像素级的 VLM 特征,可以在不需要额外的 DINO 规范化的情况下实现更简化的架构,并在 3D 点云分割上优于近期的开放词汇方法,如 LERF 和 OpenSce
→
PDF
3 months ago
ConRF: 基于辐射场的三维场景零翻译风格化
利用文本或视觉输入作为条件因素,本文旨在实现 3D 场景中的零样式条件下的控制式灵活化。我们介绍了一种新方法 ConRF,通过将 CLIP 特征空间映射到预训练 VGG 网络的样式空间并进一步将 CLIP 多模态知识转化为样式转换神经辐射场
→
PDF
5 months ago
提升人工智能生成图像检测的水平与 CLIP
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进
→
PDF
7 months ago
ICLR
ISS: 文本引导下的图像跨越式 3D 形状生成
这篇论文提出了一种名为 Image as Stepping Stone (ISS) 的框架,通过两阶段特征空间对齐方法和文本指导的形状造型模块,实现了不需要成对文本 - 形状数据的通用三维形状生成,该方法表现更优越,生成的形状具有多样的纹理
→
PDF
2 years ago
相互信息散度:多模态生成模型的统一度量
采用 CLIP 特征的负高斯交叉互信息度量被提出,用于评估 text-to-image generation 和 image captioning 任务的机器智能水平,与竞争指标相比具有一致性、样本简约性和鲁棒性,并在多模态表示学习中得到了
→
PDF
2 years ago
Prev
Next