Mar, 2024

Mini-Gemini: 挖掘多模视觉语言模型的潜力

TL;DR通过引入 Mini-Gemini 框架,本论文旨在提升多模视觉语言模型(VLMs)的性能,尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面,进一步挖掘了 VLMs 的潜力,使其能够同时支持图像理解、推理和生成。