Nov, 2023

紫罗兰:一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型

TL;DR基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet,通过从现有英文数据集中自动获取数据,并手动准备新的数据集进行评估,显著提高了在所有评估数据集上的性能。