多语种多样性增强视觉 - 语言表示

May, 2024

多语种多样性增强视觉 - 语言表示

Multilingual Diversity Improves Vision-Language Representations

Thao Nguyen, Matthew Wallingford, Sebastin Santy, Wei-Chiu Ma, Sewoong Oh...

TL;DR使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

Abstract

Massive web-crawled image-text datasets lay the foundation for recent progress in multimodal learning. These datasets are designed with the goal of training a model to do well on standard computer vision benchmarks, many of which, however, have been shown to be English-centric (e.g., I

multimodal learning multilingual data non-english samples english vision tasks geographically diverse task

发现论文，激发创造

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

大规模双语言 - 图像对比学习

本文介绍了利用 11 亿的图文对数据（7.08 亿的韩语数据和 4.76 亿的英语数据）训练出的一种名为 KELIP 的韩 - 英双语多模态模型的简单而有效的训练方案，并证明了该模型在两种语言中的性能相当竞争力，同时讨论了一些与多模态相关的研究问题。

Mar, 2022

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

语言污染现象解释英语预训练模型的跨语言能力

本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Apr, 2022

多语言维基百科研究的考虑因素

本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Apr, 2022

多语言基于实例的语言学习中的经验教训

研究了多语言学习模型在何种条件下能够表现出更好的视觉语义嵌入，结果表明多语种训练比双语种训练有更好的效果，低资源语言受益于高资源语言的训练，注释同一组图像的多种语言获得了额外的提升。

Sep, 2018