Nov, 2023
紫罗兰:一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型
Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder
Abdelrahman Mohamed, Fakhraddin Alwajih, El Moatez Billah Nagoudi, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed
TL;DR基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet,通过从现有英文数据集中自动获取数据,并手动准备新的数据集进行评估,显著提高了在所有评估数据集上的性能。