Nov, 2023

去扩散使文本成为强大的跨模态接口

TL;DR我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。