Creating artistic 3d scenes can be time-consuming and requires specialized
knowledge. To address this, recent works such as ARF, use a radiance
field-based approach with style constraints to generate 3D scenes that resemble
a style image provided by the user. However, these methods lac
利用文本或视觉输入作为条件因素,本文旨在实现 3D 场景中的零样式条件下的控制式灵活化。我们介绍了一种新方法 ConRF,通过将 CLIP 特征空间映射到预训练 VGG 网络的样式空间并进一步将 CLIP 多模态知识转化为样式转换神经辐射场,从而消除了现有 3D NeRF 样式转换方法中的再训练需求。此外,我们使用 3D 体积表示进行局部样式转换。通过结合这些操作,ConRF 可以利用文本或图像参考,生成经由全局或局部样式增强的新视图序列。实验证明,ConRF 在 3D 场景和单文本样式化方面的视觉质量优于其他现有方法。