Jan, 2024

MM-Interleaved: 多模态特征同步器下的图像与文本交错生成建模

TL;DR该论文提出了 MM-Interleaved 模型,一种用于交替图像 - 文本数据的端到端生成模型,通过引入多尺度和多图像特征同步器模块,在生成过程中直接访问上下文中的细粒度图像特征,从而增强模型在识别视觉细节、遵循多模态指令和生成一致图像方面的能力。