BriefGPT.xyz
Ask
alpha
关键词
multi-modal generative model
搜索结果 - 2
图像任意:朝着始终合理推理和无需训练的多模态图像生成
ImgAny 是一种新颖的端到端多模态生成模型,可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合,并通过实体融合分支和属性融合分支整合多个输入模态,并利用预训练的稳定扩散模型生成图像。大量
→
PDF
5 months ago
ECCV
跨模态三维形状生成与操作
该论文提出了一种通用的多模态生成模型,通过共享潜在空间将 2D 模态和隐式 3D 表示耦合在一起,实现了通过简单地传播来自特定 2D 控制模态的编辑,从而实现了多样化的 3D 生成和操作。
PDF
2 years ago
Prev
Next