Oct, 2023

Kosmos-G: 使用多模态大型语言模型生成上下文中的图像

TL;DRKosmos-G 是一个模型,利用 Multimodal Large Language Models(MLLMs)的视觉感知能力来生成来自泛化视觉 - 语言输入的图像,尤其是涉及多张图像的情况。