ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍

EMNLPOct, 2023

ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍

ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding

PDF

Guojun Wu

TL;DR通过将视觉与语言（V&L）任务分为两个阶段，ICU（图像字幕理解）将模型分为两部分：V&L 模型用英语进行图像字幕生成，然后将字幕作为交替文本，由多语言语言模型（mLM）进行跨语言语义理解。在两项任务中，我们在 IGLUE 基准测试的 9 种语言中进行实验，显示 ICU 在五种语言上可以取得新的最先进结果，并为其他语言取得可比较的结果。

Abstract

Most multilingual vision-and-language (V&L) research aims to accomplish multilingual and multimodal capabilities within one model. However, the scarcity of multilingual captions for images has hindered the development. To overcome this obstacle, we propose →

multilingual vision-and-language icu image caption understanding v&l model crosslingual language understanding

发现论文，激发创造

UC2: 通用跨语言跨模态视觉语言预训练

UC2 是第一个基于机器翻译增强的框架，用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集，通过机器翻译引入了其他语言的图像标题，然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境，通过共享视觉上下文（即使用图像作为枢纽）来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务，Masked Region-to-Token Modeling（MRTM）和 Visual Translation Language Modeling（VTLM），以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明，我们的提议框架在各种非英语基准上实现了新的最先进状态，并在英语任务上保持与单语预训练模型相当的性能。

Apr, 2021

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

MMICL: 视觉语言模型的多模态上下文学习

通过考虑模型和数据的角度，提出了 MMICL 去解决图像与文本交叉多模态提示的问题，通过无需训练的数据更好地适应用户真实应用中复杂的提示，其中包括多模态上下文与交叉的图像和文本、每个图像的文本参考以及具有空间、逻辑或时间关系的多图像数据。在广泛的视觉 - 语言任务中，特别是在复杂推理基准测试中，MMICL 取得了新的最先进的零样本和少样本性能。同时，对 ScienceQA-IMG 上的实验表明 MMICL 成功缓解了视觉 - 语言模型中的语言偏差问题，我们相信这是 MMICL 卓越性能背后的原因。

Sep, 2023

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

Med-UniC：通过减少偏差，统一跨语言医学视觉语言预训练

Med-UniC 是一种用于统一跨语言医疗视觉语言预训练的框架，通过使用 CTR 方法对多模式医疗数据进行处理，解决了语言、文化及隐含知识等方面的问题，减轻了社区偏见并取得了优异的成果。

May, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

视点整合和注册与视觉语言基础模型用于图像变化理解

我们在这篇论文中提出了一种视角整合与注册方法，通过引入融合适配器图像编码器来捕捉图像对之间的细微之处，同时设计了视角注册流程和语义强调模块来降低视角变化带来的性能下降，实验证明我们的方法在所有指标上取得了最先进的性能。

Sep, 2023

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023