Apr, 2024

SEED-X:统一多粒度理解与生成的多模态模型

TL;DR模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型 SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生成。SEED-X 在公共基准测试中取得了竞争性结果,并在指导调节后展示了在各个领域处理真实世界应用的有效性。我们希望我们的工作能够启发未来研究,探索多功能模态基础模型在真实世界应用中的潜力。模型、代码和数据集将在此 URL 中发布。