May, 2024

跨模态上下文学习实现多模态生成

TL;DR本研究提出了一种利用大型语言模型和扩散模型的多模式生成方法(MGCC),通过在 LLM 嵌入空间中显式学习文本和图像之间的跨模式依赖关系以及生成特定于多物体场景的对象边界框,实现了从复杂的多模式提示序列中生成新图像的能力,并在两个基准数据集上进行了实验验证。