紫罗兰：一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型

Nov, 2023

紫罗兰：一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型

Violet: A Vision-Language Model for Arabic Image Captioning with Gemini Decoder

Abdelrahman Mohamed, Fakhraddin Alwajih, El Moatez Billah Nagoudi, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed

TL;DR基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet，通过从现有英文数据集中自动获取数据，并手动准备新的数据集进行评估，显著提高了在所有评估数据集上的性能。

Abstract

Although image captioning has a vast array of applications, it has not reached its full potential in languages other than English. arabic, for instance, although the native language of more than 400 million peopl

image captioning arabic violet vision-language model data acquisition

发现论文，激发创造

视觉语言模型的文化意识程度如何？

我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能，并提出了一个新的评估指标，即文化意识分数（CAS）。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k，其中包含了具有文化背景和上下文的图像，以及一个带有分配的文化意识分数的数据集，可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值，对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数，促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。

May, 2024

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍

通过将视觉与语言（V&L）任务分为两个阶段，ICU（图像字幕理解）将模型分为两部分：V&L 模型用英语进行图像字幕生成，然后将字幕作为交替文本，由多语言语言模型（mLM）进行跨语言语义理解。在两项任务中，我们在 IGLUE 基准测试的 9 种语言中进行实验，显示 ICU 在五种语言上可以取得新的最先进结果，并为其他语言取得可比较的结果。

Oct, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

UIT-OpenViIC：越南图像描述评估的新基准

本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC)，用于为低资金研究社区做出贡献。从初步分析中，我们展示了我们的数据集对于最近的 MS COCO 视觉（Vision）转写器基线具有挑战性，这证明 UIT-OpenViIC 有相当大的增长空间，可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法，通过多级编码器输出融合机制有效地提高了图像表示能力，与以前的字幕模型相比，提高了生成的字幕的质量。

May, 2023