Jun, 2023

带有预训练模型的可扩展三维标题生成

TL;DRCap3D 是一种自动生成三维物体描述的方法,利用图像字幕、图像文本对齐和 LLM 的预训练模型,从多个视角的 3D 资源中整合标题,既提高了效率又降低了成本,并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程,Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型,并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion,是一项值得关注的自动化方法。