Jan, 2024

图像任意:朝着始终合理推理和无需训练的多模态图像生成

TL;DRImgAny 是一种新颖的端到端多模态生成模型,可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合,并通过实体融合分支和属性融合分支整合多个输入模态,并利用预训练的稳定扩散模型生成图像。大量实验证明了其在视觉内容创作方面的卓越能力。