Dec, 2023

通过多模态指导实现灵活的视觉编辑

TL;DRInstructAny2Pix 是一个灵活的多模态指令跟踪系统,其由多个组件组成,包括多模态编码器、扩散模型、多模态 LLM 和细化先验模块,能够根据来自音频、图像和文本的指令对输入图像进行编辑,实现了一系列新颖的指令引导编辑任务。