Apr, 2024

借助大型语言模型重新思考逆向图形

TL;DR通过大型语言模型中编码的广泛世界知识,我们提出了一个反向图形的大型语言模型(IG-LLM)框架,将视觉嵌入解码为结构化的、组合的三维场景表示,从而展示了语言模型在逆向图形中的潜力,并推动了关于图像的精确空间推理的新可能性。