Nov, 2023

评估 VLMs 用于基于分数的、多探针注释三维物体

TL;DR我们提出了一种方法来边际化通过 VLM 查询变化的任何因素,利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型(如 GPT4),避免了在响应之间存在对比细节时的幻觉。此外,我们展示了聚合注释对于 Prompt-Chaining 是有用的;它们有助于改进下游 VLM 的预测,例如当在提示中将对象类型指定为辅助输入时,提高了对物体材料的预测质量。利用这些评估,我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量,而无需额外的训练或上下文学习。