BriefGPT.xyz
大模型
Ask
alpha
关键词
spatial comprehension
搜索结果 - 2
LLMs 跨入 3D 世界:多模态大语言模型对 3D 任务的调查与元分析
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识
→
PDF
2 months ago
文本到图像扩散模型中的空间理解解锁
我们提出了 CompFuser,这是一个图像生成管道,可以增强文本到图像生成模型中的空间理解和属性分配。该管道能够解释定义场景中物体之间空间关系的指令,并生成相应的图像,为用户提供更多的控制。通过在生成多个对象时将其解码成迭代步骤:首先生成
→
PDF
7 months ago
Prev
Next